当我们进入人工智能的动荡时代时。我也把我的水滴洒到海洋里。因为我是pythonian,所有的尝试都是在python/anaconda中完成的。
有没有人已经有一些经验,在“数据格式”通过GPT家庭的AI?
在文档中建议使用OpenAI工具进行控制。随后是文档推荐格式(“提示:”,“完成:”),字符串标记为:
["str" = in quotes,"/" = separator ,"@>" = unique symbol,
" " = comp. starts with empty space]
'Prompt': 'Hello AI..!!/@>'
'Completion': ' How are you today?/@>'
“Completion”应该在每个sting的开始有空格。到目前为止,我只能找到简单的例子如下:
Col1 Col2
'Prompt': 'Completion':
'Text/@>' ' Text/@>'
有没有什么方法可以理解更复杂的数据集?有更多的dim. DataFrame有效吗?示例:
Col1 Col2 Col3 Col4
'Prompt_a': 'Completion_a': 'Prompt_b': 'Completion_b':
'Text/@>' ' Text/@>' 'Text/@>' ' Text/@>
是以'str/@〉'的形式传递较长的上下文文本,还是需要一些分区?
' text text text /@>'
非常感谢所有的答案和提前的努力。
已检查:https://help.openai.com/en/articles/6811186-how-do-i-format-my-fine-tuning-data
1条答案
按热度按时间hpcdzsge1#
如官方OpenAI documentation中所述:
您的数据必须是JSONL文档,每行是一个提示完成对,对应一个训练示例。您可以使用我们的CLI data preparation tool轻松将您的数据转换为该文件格式。
此工具接受不同的格式,唯一的要求是它们包含提示符和完成列/键。您可以传递CSV,TSV,XLSX,JSON或JSONL文件,它会将输出保存到JSONL文件中,以便在指导您完成建议的更改过程后进行微调。