GPT-3微调微调模型?

qzlgjiam  于 2023-03-03  发布在  其他
关注(0)|答案(1)|浏览(209)

OpenAI文档中关于微调API中model属性的说明有点令人困惑:

    • 型号**

要微调的基本模型的名称。您可以选择"ada"、"babbage"、"curie"、"davinci"或在2022 - 04 - 21之后创建的微调模型。
我的问题:微调基本模型或微调模型哪个更好?
我使用mydata1K.jsonl文件从ada创建了一个微调模型:

ada + mydata1K.jsonl --> ada:ft-acme-inc-2022-06-25

现在我有了一个更大的mydata2K.jsonl样本文件,我想用它来改进微调模型。在第二轮微调中,是再次微调ada更好,还是微调我的微调模型ada:ft-acme-inc-2022-06-25更好?我假设这是可能的,因为我的微调模型是在2022 - 04 - 21之后创建的。

ada + mydata2K.jsonl --> better-model

ada:ft-acme-inc-2022-06-25 + mydata2K.jsonl --> even-better-model?
xmjla07d

xmjla07d1#

如果你读过Fine-tuning documentation,唯一提到"微调一个微调过的模型"的部分是 * 高级用法 * 下的以下部分:

如果您已经为任务微调了模型,并且现在有要合并的其他训练数据,则可以继续从该模型进行微调。这将创建一个已从所有训练数据中学习的模型,而不必从头开始重新训练。
为此,请在创建新的微调作业时传入微调后的模型名称(例如-m curie:ft-<org>-<date>)。其他训练参数不必更改,但如果新的训练数据比以前的训练数据小得多,您可能会发现将learning_rate_multiplier减少2到4倍非常有用。

选择哪个选项?

你在问两个选择:

  • 选项1:ada + bigger-training-dataset.jsonl
  • 选项2:ada:ft-acme-inc-2022-06-25 + additional-training-dataset.jsonl

文档没有说明哪个选项更好 * 就哪个选项会产生更好的结果 * 而言。
但是...

选择选项2

为什么?
当训练一个微调的模型时,使用的总令牌将根据我们的训练费率计费。
如果您选择选项1,您将为训练数据集中的某些令牌支付两次费用,第一次是在使用初始训练数据集进行微调时,第二次是在使用更大的训练数据集进行微调时(即bigger-training-dataset.jsonl = initial-training-dataset.jsonl + additional-training-dataset.jsonl)。

    • 最好从微调后的模型继续微调,因为您只需为额外训练数据集中的令牌付费。**

阅读有关微调定价计算的详细信息。

相关问题