在1,000个文档的Markdown数据集上比较QA系统的方法:使用GPT-4的索引和嵌入与重新训练GPT 4ALL(或类似)

wbgh16ku  于 2023-04-22  发布在  其他
关注(0)|答案(1)|浏览(155)

我正在做一个项目,为一个包含1,000多个Markdown文档的文档门户构建一个问答系统,每个文档包含大约2000 - 4000个令牌。
我正在考虑以下两种选择:
1.在GPT-4中使用索引和嵌入
1.重新训练像GPT 4ALL这样的模型(或类似的模型)来专门处理我的数据集
对于我的用例,这些方法中哪种更有可能产生更好的结果?

jobtbby3

jobtbby31#

如果你重新训练1000个文件和有限数量的数据,就不能给予你一个好的结果。使用嵌入代替。我为我的客户尝试了同样的方法,最后选择嵌入而不是微调模型。

相关问题