text-generation-inference 队列大小无限增加

3ks5zfa0 于 6个月前发布在其他

关注(0)|答案(2)|浏览(59)

系统信息
操作系统版本：Linux
正在使用的模型(curl 127.0.0.1:8080/info | jq):TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ
使用的硬件(GPUs,数量，云平台) (nvidia-smi):1xL40S
当前使用的版本：2.0.4

信息

Docker
CLI直接使用

任务

一个官方支持的命令
自己的修改

重现过程
使用 max_total_tokens = max_batch_prefill_tokens =16384; max_input_length =16383; quantize =awq 启动TGI。
在发出几百个请求后，pod返回空数据包，并且在发出请求几秒钟后。
监控显示 tgi_queue_size 稳步增加，但从未下降过。

预期行为
无卡顿。

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/2192

2条答案

按热度按时间

嘿，@QLutz ,我怀疑这可能与 #2099 有关。你能尝试用 --cuda-graphs 0 运行 TGI,看看是否仍然出现挂起的情况？

赞(0）回复(0）举报 6个月前

我遇到了同样的问题，并通过尝试--cuda-graphs 0方法解决了它。这显然导致了严重的性能问题，但至少比崩溃要好。

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前