动机
在 async_engine
代码路径中,我们有一个选项,可以使用 Ray
parser.add_argument('--engine-use-ray',
action='store_true',
help='Use Ray to start the LLM engine in a '
'separate process as the server process
在单独的进程中启动引擎。
最初,这个选项使得可以将服务器的 Python 开销与引擎的主调度循环分开。然而,有几个因素使得这个选项不常用/不受欢迎:
- Ray 是一个可选组件,通常不会在单节点环境中使用。
- 序列化和 rpc 通常抵消了理论上的性能提升。
- 通常还有其他方法可以隔离服务器和引擎(通过多进程、线程等)。
- 最近,我们在服务器中使用了更低开销的方法来分离 [ Frontend ] Multiprocessing for OpenAI Server with
zeromq
#6883
建议的更改
在一个版本中弃用该标志,并给出警告。
如果没有遇到主要阻力,将删除该标志。
反馈期
1周
CC 列表
- 无响应*
其他事项
- 无响应*
2条答案
按热度按时间wnvonmuf1#
n3h0vuf22#
解:这是一个关于$vllm/vllm/engine/async_llm_engine.py$的代码片段,其中第601行有一个错误。
错误代码如下: