FastGPT 为什么当加载的知识库较多时,输出的内容经常会被截断?

dly7yett  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(33)

为什么加载的知识库比较多时,输出的内容就经常截断?
比如问一个问题,如果是知识库里就1~2本书,大模型就会比较完整地输出内容,而如果知识库里的内容比较多,大模型输出总是输出一半就不输出了。
显卡4090*2,max-model-len 18048 足够支持长文本。
只要知识库内容一多,就会犯这种错。
麻烦看下,是否有什么解决方案?

zed5wv10

zed5wv101#

总token超过限制,例如您设定模型输入和输出的总token数为8000,但实际输入了7000,要求输出2000。当输出达到1000时,就会超过总token限制。

dl5txlt9

dl5txlt92#

总token超过限制,例如您设定模型输入和输出的总token数为8000,但实际输入了7000,要求输出2000。当输出达到1000时,就会超过总token限制。

感谢您的回复,但我的总token设置为18000,索引字数在4000多,这已经足够它发挥作用了。

jxct1oxe

jxct1oxe3#

我这边也发现了这个问题。请求实际上已经完成了,但不知道是不是网络原因,他的请求是一批一批过来的,中间隔了几秒,然后间隔之后可能就不输出了。前后端都没有看到任何报错。刷新页面后面的内容又显示全了。

相关问题