ChatGPT-3 微调后OpenAI预测的编码问题

c86crjj0 于 2023-03-03 发布在其他

关注(0)|答案(1)|浏览(311)

我正在关注this OpenAI tutorial的微调。
我已经用openai工具生成了数据集，问题是输出编码（推理结果）混合了UTF-8和非UTF-8字符。
生成的模型如下所示：

{"prompt":"Usuario: Quién eres\\nAsistente:","completion":" Soy un Asistente\n"}
{"prompt":"Usuario: Qué puedes hacer\\nAsistente:","completion":" Ayudarte con cualquier gestión o ofrecerte información sobre tu cuenta\n"}

例如，如果我问“à Cómo estás？”，这个句子有一个经过训练的完成方式：“Estoy bien，à y tú？"，推理通常返回完全相同的结果（这很好），但有时它会添加未编码的单词：“Estoy bien，à y tú？Cuéntame algo de ti”，添加“é”而不是“é"。
有时候，它返回的句子与训练的句子完全相同，没有编码问题，我不知道推理是从我的模型还是从其他地方获取未编码的字符。
我应该怎么做？我应该用UTF-8编码数据集吗？我应该保留UTF-8数据集并解码响应中编码错误的字符吗？
用于微调的OpenAI文档不包括任何关于编码的内容。

gpt-3

来源：https://stackoverflow.com/questions/69928517/encoding-issues-on-openai-predictions-after-fine-tuning

1条答案

按热度按时间

yeotifhr1#

我在处理葡萄牙语字符串时遇到了同样的问题。
尝试在字符串后使用.encode("cp1252").decode()：

"CuÃ©ntame algo de ti".encode("cp1252").decode()

这应导致：

"Cuéntame algo de ti"

cp1252与windows-1252西欧编解码器相关。如果该编解码器不起作用，请从此处尝试其他编解码器：https://docs.python.org/3.7/library/codecs.html#standard-encodings

赞(0）回复(0）举报 2023-03-03

我来回答

ChatGPT-3 微调后OpenAI预测的编码问题

1条答案

相关问题

热门标签

最新问答