vllm [用法]:GPTQ量化行为

wgxvkvu9  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(67)

当前环境信息如下:

PyTorch版本:2.3.0+cu121
是否为调试构建:否
用于构建PyTorch的CUDA版本:12.1
用于构建PyTorch的ROCM版本:N/A
操作系统:Debian GNU/Linux 11(bullseye) (x86_64)
GCC版本:(Debian 10.2.1-6) 10.2.1 20210110
Clang版本:无法收集
CMake版本:3.28.1
Libc版本:glibc-2.31
Python版本:3.10.13 | packaged by conda-forge (main, Dec 23, 2023, 15:36:39) [GCC 12.3.0] (64-bit runtime)
Python平台:Linux-5.10.0-31-cloud-amd64-x86_64-with-glibc2.31
是否可用CUDA:是
CUDA运行时版本:11.8.89
CUDA_MODULE_LOADING设置为:LAZY
GPU和模型配置:GPU 0:NVIDIA L4
Nvidia驱动版本:525.105.17
cuDNN版本:无法收集
HIP运行时版本:N/A
MIOpen运行时版本:N/A
XNNPACK可用:是
CPU架构:x86_64
CPU op-mode(s):32位, 64位
字节序:Little Endian
地址大小:46 bits physical, 48 bits virtual
CPU数量:16
在线CPU列表:0-15
线程数:每核心2个
核心数/线程数:8/socket
Socket数量:1
NUMA节点数:1
供应商ID:GenuineIntel
CPU家族:6
型号:850
模型名称:Intel(R) Xeon(R) CPU @ 2.20GHz
步进:7
CPU MHz:2200.162
BogoMIPS:4400.32
虚拟化类型:full
L1d缓存大小:256 KiB
L1i缓存大小:256 KiB
L2缓存大小:8 MiB
L3缓存大小:38.5 MiB
NUMA节点0 CPU(s):0-15
漏洞扳手数据采样状态:无影响
漏洞扳手Itlb multihit状态:无影响
漏洞扳手Ltf状态:无影响
漏洞扳手Mds状态:无影响
漏洞扳手Meltdown状态:无影响
漏洞扳手Mmio stale data状态:Vulnerable;Clear CPU buffers attempted, no microcode; SMT Host state unknown
漏洞扳手Reg file data sampling状态:无影响
漏洞扳手Retblection状态:已修复;Enhanced IBRS;IBPBR conditionality, RSB filling, PBRSB-eIBRS SW sequence
漏洞扳手Spec store bypass状态:已修复;Speculative Store Bypass disabled via prctl and seccomp
漏洞扳手Spectre v1状态:已修复;usercopy/swapgs barriers and __user pointer sanitization
漏洞扳手Spectre v2状态:已修复;Enhanced / Automatic IIBRS, IBPB conditionality, RSB filling, PBRSB-eIBRS SW sequence
漏洞扳手Srbds状态:无影响
漏洞扳手Tsx async abort状态:Vulnerable;Clear CPU buffers attempted, no microcode; SMT Host state unknown
在启动过程中,我看到以下日志行:

模型可以在运行时转换为gptq_marlin。使用gptq_marlin内核。

如果我像这样强制使用GPTQ MARLIN: llm = LLM(model="...", dtype="float16", quantization="gptq_marlin")
我会看到一个ValueError

ValueError: 模型配置中指定的量化方法(gptq)与quantization参数中指定的量化方法(gptq_marlin)不匹配。

为什么会出现这种行为?

bakd9h0s

bakd9h0s1#

你使用的是哪个版本的vLLM?它没有出现在你的报告中。我以为我们已经解决了这个问题,所以我只是想检查一下。

无论如何,你不需要指定--quantization。我们可以从模型配置中自动检测。

相关问题