vllm [Bug]: OpenAI服务器意外关闭

dluptydi  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(127)

你的当前环境信息如下:

The output of python collect_env.py


正在收集环境信息...
PyTorch版本: 2.3.0+cu121
是否为调试构建: False
用于构建PyTorch的CUDA版本: 12.1
用于构建PyTorch的ROCM版本: N/A
操作系统: Ubuntu 20.04.6 LTS (x86_64)
GCC版本: (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0
Clang版本: 无法收集
CMake版本: 3.29.5
Libc版本: glibc-2.31
Python版本: 3.9.19 (主, May 6 2024, 19:43:03) [GCC 11.2.0] (64位运行时)
Python平台: Linux-5.15.0-107-generic-x86_64-with-glibc2.31
是否可用CUDA: 是
CUDA运行时版本: 无法收集
CUDA_MODULE_LOADING设置为: LAZY
Nvidia驱动版本: 535.183.01
cuDNN版本: 无法收集
HIP运行时版本: N/A
MIOpen运行时版本: N/A
XNNPACK是否可用: 是
相关库的版本信息:
[pip3] numpy==1.26.4
[pip3] nvidia-nccl-cu12==2.20.5
[pip3] torch==2.3.0
[pip3] torcheval==0.0.7
[pip3] transformers==4.41.2
[pip3] triton==2.3.0
[conda] numpy 1.26.4 pypi_0 pypi
[conda] nvidia-nccl-cu12 2.20.5 pypi_0 pypi
[conda] torch 2.3.0 pypi_0 pypi
[conda] torcheval 0.0.7 pypi_0 pypi
[conda] transformers 4.41.2 pypi_0 pypi
[conda] triton 2.3.0 pypi_0 pypi
ROCM版本: 无法收集
Neuron SDK版本: N/A
vLLM版本: 0.5.0
vLLM构建标志:
CUDA架构: 未设置;ROCm禁用;Neuron禁用
GPU拓扑:
GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 CPU亲和性NUMA亲和性GPUNUMA ID
GPU0 X PXB PXB PXB SYS SYS SYS SYS 0-11,24-35 0 N/A
GPU1 PXB X PXB PXB SYS SYS SYS SYS 0-11,24-35 0 N/A
GPU2 PXB PXB X PIX SYS SYS SYS SYS 0-11,24-35 0 N/A
GPU3 PXB PXB PIX X SYS SYS SYS SYS 0-11,24-35 0 N/A
GPU4 SYS SYS SYS SYS X PXB PXB PXB 12-23,36-47 1 N/A
GPU5 SYS SYS SYS SYS PXB X PXB PXB 12-23,36-47 1 N/A
GPU6 SYS SYS SYS SYS PXB PXB X PIX 12-23,36-47 1 N/A
GPU7 SYS SYS SYS SYS PXB PXB PIX X 12-23,36-47 1 N/A
Legend:
X = 自连接
SYS = 通过PCIe以及SMP之间的互连(例如QPI/UPI)遍历的连接,以及在NUMA节点内的PCIe主机桥之间的连接。
NODE = 通过PCIe以及位于NUMA节点内的PCIe主机桥之间的连接遍历的连接。
PHB = 通过PCIe以及一个PCIe主机桥(通常是CPU)的连接。
PXB = 通过多个PCIe桥(不经过PCIe主机桥)的连接。
PIX = 通过最多一个PCIe桥的连接。
n9vozmp4

n9vozmp41#

遇到了相同的问题,但输出结果为"Killed",而不是"Terminated"。

相关问题