Triton Inference Server服务启动后,是在8000端口。您可以使用curl命令向该服务器发送请求,以生成模型的推理结果。例如,您可以使用以下命令:
curl -X POST localhost:8000/v2/models/vllm_model/generate
-d '{"text_input": "What is Triton Inference Server?", "parameters": {"stream": false, "temperature": 0}}'
其中,localhost:8000
是Triton Inference Server服务的地址和端口号,vllm_model
是要使用的模型名称,text_input
是要输入的文本,parameters
是一些可选参数。
1条答案
按热度按时间31moq8wy1#
需要进行适配,这个有待之后处理,期待 PR: https://github.com/triton-inference-server/server