one-api 如何调用Triton Inference Server的接口?

ecr0jaav  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(39)

Triton Inference Server服务启动后,是在8000端口。您可以使用curl命令向该服务器发送请求,以生成模型的推理结果。例如,您可以使用以下命令:

curl -X POST localhost:8000/v2/models/vllm_model/generate 
-d '{"text_input": "What is Triton Inference Server?", "parameters": {"stream": false, "temperature": 0}}'

其中,localhost:8000是Triton Inference Server服务的地址和端口号,vllm_model是要使用的模型名称,text_input是要输入的文本,parameters是一些可选参数。

相关问题