我正在关注this OpenAI tutorial的微调。
我已经用openai工具生成了数据集,问题是输出编码(推理结果)混合了UTF-8和非UTF-8字符。
生成的模型如下所示:
{"prompt":"Usuario: Quién eres\\nAsistente:","completion":" Soy un Asistente\n"}
{"prompt":"Usuario: Qué puedes hacer\\nAsistente:","completion":" Ayudarte con cualquier gestión o ofrecerte información sobre tu cuenta\n"}
例如,如果我问“à Cómo estás?”,这个句子有一个经过训练的完成方式:“Estoy bien,à y tú?",推理通常返回完全相同的结果(这很好),但有时它会添加未编码的单词:“Estoy bien,à y tú?Cuéntame algo de ti”,添加“é”而不是“é"。
有时候,它返回的句子与训练的句子完全相同,没有编码问题,我不知道推理是从我的模型还是从其他地方获取未编码的字符。
我应该怎么做?我应该用UTF-8编码数据集吗?我应该保留UTF-8数据集并解码响应中编码错误的字符吗?
用于微调的OpenAI文档不包括任何关于编码的内容。
1条答案
按热度按时间yeotifhr1#
我在处理葡萄牙语字符串时遇到了同样的问题。
尝试在字符串后使用
.encode("cp1252").decode()
:这应导致:
cp1252
与windows-1252西欧编解码器相关。如果该编解码器不起作用,请从此处尝试其他编解码器:https://docs.python.org/3.7/library/codecs.html#standard-encodings