ChatGPT-3 微调后OpenAI预测的编码问题

c86crjj0  于 2023-03-03  发布在  其他
关注(0)|答案(1)|浏览(310)

我正在关注this OpenAI tutorial的微调。
我已经用openai工具生成了数据集,问题是输出编码(推理结果)混合了UTF-8和非UTF-8字符。
生成的模型如下所示:

{"prompt":"Usuario: Quién eres\\nAsistente:","completion":" Soy un Asistente\n"}
{"prompt":"Usuario: Qué puedes hacer\\nAsistente:","completion":" Ayudarte con cualquier gestión o ofrecerte información sobre tu cuenta\n"}

例如,如果我问“à Cómo estás?”,这个句子有一个经过训练的完成方式:“Estoy bien,à y tú?",推理通常返回完全相同的结果(这很好),但有时它会添加未编码的单词:“Estoy bien,à y tú?Cuéntame algo de ti”,添加“é”而不是“é"。
有时候,它返回的句子与训练的句子完全相同,没有编码问题,我不知道推理是从我的模型还是从其他地方获取未编码的字符。
我应该怎么做?我应该用UTF-8编码数据集吗?我应该保留UTF-8数据集并解码响应中编码错误的字符吗?
用于微调的OpenAI文档不包括任何关于编码的内容。

yeotifhr

yeotifhr1#

我在处理葡萄牙语字符串时遇到了同样的问题。
尝试在字符串后使用.encode("cp1252").decode()

"Cuéntame algo de ti".encode("cp1252").decode()

这应导致:

"Cuéntame algo de ti"

cp1252与windows-1252西欧编解码器相关。如果该编解码器不起作用,请从此处尝试其他编解码器:https://docs.python.org/3.7/library/codecs.html#standard-encodings

相关问题