vllm [RFC]: Deprecation and removal for --engine-use-ray

apeeds0o  于 5个月前  发布在  其他
关注(0)|答案(2)|浏览(44)

动机

async_engine 代码路径中,我们有一个选项,可以使用 Ray

parser.add_argument('--engine-use-ray',
                            action='store_true',
                            help='Use Ray to start the LLM engine in a '
                            'separate process as the server process

在单独的进程中启动引擎。
最初,这个选项使得可以将服务器的 Python 开销与引擎的主调度循环分开。然而,有几个因素使得这个选项不常用/不受欢迎:

  • Ray 是一个可选组件,通常不会在单节点环境中使用。
  • 序列化和 rpc 通常抵消了理论上的性能提升。
  • 通常还有其他方法可以隔离服务器和引擎(通过多进程、线程等)。
  • 最近,我们在服务器中使用了更低开销的方法来分离 [ Frontend ] Multiprocessing for OpenAI Server with zeromq  #6883

建议的更改

在一个版本中弃用该标志,并给出警告。
如果没有遇到主要阻力,将删除该标志。

反馈期

1周

CC 列表

  • 无响应*

其他事项

  • 无响应*
n3h0vuf2

n3h0vuf22#

解:这是一个关于$vllm/vllm/engine/async_llm_engine.py$的代码片段,其中第601行有一个错误。

错误代码如下:

|  | asyncdefrun_engine_loop(self): |
+1

相关问题