系统信息
操作系统版本:Linux
正在使用的模型(curl 127.0.0.1:8080/info | jq):TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ
使用的硬件(GPUs,数量,云平台) (nvidia-smi):1xL40S
当前使用的版本:2.0.4
信息
- Docker
- CLI直接使用
任务
- 一个官方支持的命令
- 自己的修改
重现过程
使用 max_total_tokens
= max_batch_prefill_tokens
=16384; max_input_length
=16383; quantize
=awq 启动TGI。
在发出几百个请求后,pod返回空数据包,并且在发出请求几秒钟后。
监控显示 tgi_queue_size
稳步增加,但从未下降过。
预期行为
无卡顿。
2条答案
按热度按时间z4bn682m1#
嘿,@QLutz ,我怀疑这可能与 #2099 有关。你能尝试用
--cuda-graphs 0
运行 TGI,看看是否仍然出现挂起的情况?a0zr77ik2#
我遇到了同样的问题,并通过尝试
--cuda-graphs 0
方法解决了它。这显然导致了严重的性能问题,但至少比崩溃要好。