GPT-3微调微调模型？

qzlgjiam 于 2023-03-03 发布在其他

关注(0)|答案(1)|浏览(213)

OpenAI文档中关于微调API中model属性的说明有点令人困惑：

- 型号**

要微调的基本模型的名称。您可以选择"ada"、"babbage"、"curie"、"davinci"或在2022 - 04 - 21之后创建的微调模型。
我的问题：微调基本模型或微调模型哪个更好？
我使用mydata1K.jsonl文件从ada创建了一个微调模型：

ada + mydata1K.jsonl --> ada:ft-acme-inc-2022-06-25

现在我有了一个更大的mydata2K.jsonl样本文件，我想用它来改进微调模型。在第二轮微调中，是再次微调ada更好，还是微调我的微调模型ada:ft-acme-inc-2022-06-25更好？我假设这是可能的，因为我的微调模型是在2022 - 04 - 21之后创建的。

ada + mydata2K.jsonl --> better-model

或

ada:ft-acme-inc-2022-06-25 + mydata2K.jsonl --> even-better-model?

gpt-3

来源：https://stackoverflow.com/questions/72758187/gpt-3-fine-tune-a-fine-tuned-model

1条答案

按热度按时间

xmjla07d1#

如果你读过Fine-tuning documentation，唯一提到"微调一个微调过的模型"的部分是 * 高级用法 * 下的以下部分：

如果您已经为任务微调了模型，并且现在有要合并的其他训练数据，则可以继续从该模型进行微调。这将创建一个已从所有训练数据中学习的模型，而不必从头开始重新训练。
为此，请在创建新的微调作业时传入微调后的模型名称（例如-m curie:ft-<org>-<date>）。其他训练参数不必更改，但如果新的训练数据比以前的训练数据小得多，您可能会发现将learning_rate_multiplier减少2到4倍非常有用。

选择哪个选项？

你在问两个选择：

选项1：ada + bigger-training-dataset.jsonl
选项2：ada:ft-acme-inc-2022-06-25 + additional-training-dataset.jsonl

文档没有说明哪个选项更好 * 就哪个选项会产生更好的结果 * 而言。
但是...

选择选项2

为什么？
当训练一个微调的模型时，使用的总令牌将根据我们的训练费率计费。
如果您选择选项1，您将为训练数据集中的某些令牌支付两次费用，第一次是在使用初始训练数据集进行微调时，第二次是在使用更大的训练数据集进行微调时（即bigger-training-dataset.jsonl = initial-training-dataset.jsonl + additional-training-dataset.jsonl）。

- 最好从微调后的模型继续微调，因为您只需为额外训练数据集中的令牌付费。**

阅读有关微调定价计算的详细信息。

赞(0）回复(0）举报 2023-03-03

我来回答

GPT-3微调微调模型？

1条答案

选择哪个选项？

选择选项2

相关问题

热门标签

最新问答