系统信息
tgi 2.0.2
信息
- Docker
- CLI直接使用
任务
- 一个官方支持的命令
- 我自己的修改
复现
/// GRPC health check #[instrument(skip(self))] pub async fn health(&mut self) -> Result<HealthResponse> { let futures: Vec<_> = self .clients .iter_mut() .map(|client| client.health()) .collect(); join_all(futures).await.pop().unwrap() }
/// 返回连接到给定url的客户端
pub async fn connect(uri: Uri) -> Result {
let channel = Channel::builder(uri).connect().await?;
这一部分在调用gprc的时候,返回结果会很慢,尤其是在调用一个超长文本,比如125k的长上下文的时候,我使用的是llama3-8B。 /health
时间会超过10s以上。 这个已经严重影响了正常使用。
预期行为
如题。
1条答案
按热度按时间2izufjch1#
你好@coderchem 👋
感谢打开这个问题!
我不太确定我是否完全理解了确切的问题。但是,我是否正确理解了当有一个长文本生成的推理进行时,
/health
端点会变慢?