Linly 关于平行语料的预处理

pobjuy32 于 6个月前发布在其他

关注(0)|答案(3)|浏览(147)

你好，请问平行语料的预处理有做特殊格式拼接吗？比如中英用特殊分隔，拼接成一行之类的？

Linly

来源：https://github.com/CVI-SZU/Linly/issues/93

3条答案

按热度按时间

pftdvrlh1#

同问，预训练的时候需要加prompt吗，比如please translate English to Chinese?

赞(0）回复(0）举报 6个月前

uxhixvfz2#

没有prompt...

发件人： mynewstart ***@***.***> 发送时间： 2023年8月18日，星期五，上午11:42:19 AM 收件人： CVI-SZU/Linly ***@***.***> 抄送： Subscribed ***@***.***> 主题：回复： [CVI-SZU/Linly] 关于平行语料的预处理 (Issue #93) 同样的问题，预训练时需要加prompt吗？比如"please translate English to Chinese",或者直接回复此邮件，在GitHub上查看，或者取消订阅< https://github.com/notifications/unsubscribe-auth/AE3SPVZTVABTBL342VKGSIDXV3QBXANCNFSM6AAAAAAYT36W6E >。您收到此邮件是因为您订阅了这个线程。消息ID: ***@***.***>

赞(0）回复(0）举报 6个月前

guz6ccqo3#

请问平行语料的训练loss是和其他语料一样，每个next token的loss和还是说只是计算英文/中文 token部分的？

赞(0）回复(0）举报 6个月前