像ollama可以设置推理最大并发数,那么qanything怎么设置呢?是需要在fastchat里去设置吗?
注!我说的是大模型推理并发,不是API并发
z3yyvxxp1#
使用VLLM进行推理时,服务中默认有10个worker。
1条答案
按热度按时间z3yyvxxp1#
使用VLLM进行推理时,服务中默认有10个worker。