你好,感谢你的工作!Text-generation-inference(TGI)根据官方文档支持部署非核心模型:
https://huggingface.co/docs/text-generation-inference/en/basic_tutorials/non_core_models
TGI支持各种LLM架构(请参阅完整列表here)。如果你希望部署一个不是受支持模型之一的模型,TGI将回退到该模型的transformers实现。这意味着你将无法使用TGI引入的一些功能,如Tensor并行分片或闪存注意力。然而,你仍然可以获得TGI的许多好处,如连续批处理或流式输出。
看起来我们将为我们的非核心模型使用transformers实现。因此,我想在generate()函数中设置一些生成参数以与我模型的原始实现保持一致,但我找不到任何关于它的入口。你能告诉我如何实现吗?谢谢!
2条答案
按热度按时间rnmwe5a21#
你好,@ChenlongDeng 👋
这是一个非常好的问题。所以我非常确定,不幸的是这是不可能的。特别是如果这些是与请求一起发送的kwargs。或者这些是在模型启动时添加的吗?🤔
编辑:通过可能的意思是,它目前不支持。
6yoyoihd2#
你好,@ChenlongDeng 👋
这是一个非常好的问题。所以我非常确定,不幸的是这是不可能的。特别是如果这些是与请求一起发送的kwargs。或者这些是在模型启动时添加的吗?🤔
编辑:我的意思是,它目前不支持。
感谢你的回复!我的问题是,如果我们使用配置文件为一个模型提供服务,我们不能通过发送新请求来在配置中分配这些参数。我知道这很有挑战性,可能会与设计冲突,而且我相信TGI如果能支持的话,将更顺畅地与transformers一起工作。