text-generation-inference 生成超长文本时，"/health"变得非常慢,

eanckbw9 于 4个月前发布在其他

关注(0)|答案(1)|浏览(67)

系统信息

tgi 2.0.2

信息

Docker
CLI直接使用

任务

一个官方支持的命令
我自己的修改

复现

/// GRPC health check #[instrument(skip(self))] pub async fn health(&mut self) -> Result<HealthResponse> { let futures: Vec<_> = self .clients .iter_mut() .map(|client| client.health()) .collect(); join_all(futures).await.pop().unwrap() }

/// 返回连接到给定url的客户端
pub async fn connect(uri: Uri) -> Result {
    let channel = Channel::builder(uri).connect().await?;

这一部分在调用gprc的时候，返回结果会很慢，尤其是在调用一个超长文本，比如125k的长上下文的时候，我使用的是llama3-8B。 /health 时间会超过10s以上。这个已经严重影响了正常使用。

预期行为

如题。

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/2348

1条答案

按热度按时间

2izufjch1#

你好@coderchem 👋
感谢打开这个问题！
我不太确定我是否完全理解了确切的问题。但是，我是否正确理解了当有一个长文本生成的推理进行时，/health端点会变慢？

赞(0）回复(0）举报 4个月前

我来回答

text-generation-inference 生成超长文本时，"/health"变得非常慢,

系统信息

信息

任务

复现

预期行为

1条答案

相关问题

热门标签

最新问答