OpenAI文档中关于微调API中model
属性的说明有点令人困惑:
- 型号**
要微调的基本模型的名称。您可以选择"ada"、"babbage"、"curie"、"davinci"或在2022 - 04 - 21之后创建的微调模型。
我的问题:微调基本模型或微调模型哪个更好?
我使用mydata1K.jsonl
文件从ada
创建了一个微调模型:
ada + mydata1K.jsonl --> ada:ft-acme-inc-2022-06-25
现在我有了一个更大的mydata2K.jsonl
样本文件,我想用它来改进微调模型。在第二轮微调中,是再次微调ada
更好,还是微调我的微调模型ada:ft-acme-inc-2022-06-25
更好?我假设这是可能的,因为我的微调模型是在2022 - 04 - 21之后创建的。
ada + mydata2K.jsonl --> better-model
或
ada:ft-acme-inc-2022-06-25 + mydata2K.jsonl --> even-better-model?
1条答案
按热度按时间xmjla07d1#
如果你读过Fine-tuning documentation,唯一提到"微调一个微调过的模型"的部分是 * 高级用法 * 下的以下部分:
如果您已经为任务微调了模型,并且现在有要合并的其他训练数据,则可以继续从该模型进行微调。这将创建一个已从所有训练数据中学习的模型,而不必从头开始重新训练。
为此,请在创建新的微调作业时传入微调后的模型名称(例如
-m curie:ft-<org>-<date>
)。其他训练参数不必更改,但如果新的训练数据比以前的训练数据小得多,您可能会发现将learning_rate_multiplier
减少2到4倍非常有用。选择哪个选项?
你在问两个选择:
ada + bigger-training-dataset.jsonl
ada:ft-acme-inc-2022-06-25 + additional-training-dataset.jsonl
文档没有说明哪个选项更好 * 就哪个选项会产生更好的结果 * 而言。
但是...
选择选项2
为什么?
当训练一个微调的模型时,使用的总令牌将根据我们的训练费率计费。
如果您选择选项1,您将为训练数据集中的某些令牌支付两次费用,第一次是在使用初始训练数据集进行微调时,第二次是在使用更大的训练数据集进行微调时(即
bigger-training-dataset.jsonl
=initial-training-dataset.jsonl
+additional-training-dataset.jsonl
)。阅读有关微调定价计算的详细信息。