CTranslate2 微调后的whisper模型不能使用“initial_prompt”,
- 初始提示
我将官方的whisper模型转换为CTranslate2格式,这样我就可以正常使用“initial_prompt”。
当我将我的微调过的whisper模型转换为CTranslate2格式并使用“initial_prompt”时,我得到了一个奇怪或空的结果。
使用相同的音频解码我的微调过的模型,使用initial_prompt和不使用initial_prompt的WhisperGenerationResult如下:
- 使用initial_prompt:
WhisperGenerationResult(sequences=[['<|0.00|>', '<|zh|>', '<|2.06|>', '<|zh|>', '<|4.06|>', '<|en|>', '好çļĦ', 'æĤ¨', '好', 'ï', '¼', 'Į', 'æĤ¨', '好', 'ï', '¼', 'Į', '请', 'éĹ®', 'ä¸Ģä¸ĭ', 'æĥħåĨµ', 'æĦŁ', 'è°¢', 'èĢ', 'IJ', 'å¿ĥ', 'ï', '¼', 'Į', 'èĢ', 'IJ', 'å¿ĥ', 'åĨį', '次', 'çŃī', 'å¾ħ', 'å¼ł', 'åħĪçĶŁ', '缮åīį', 'éĢļ', 'è¿ĩ', 'æŁ¥', 'çľĭ', 'åij¢', 'ï', '¼', 'Į', 'åĴ', '±', '们', 'æĺ¯', '没æľī', 'åĿ', '¦', 'åħĭ', 'ä¸ī', 'çĻ¾', 'P', 'TV', 'è½', '¦', 'é¡', '¶', 'çļĦ', 'ä¸Ģ个', 'ä¸Ĭ', 'å¸Ĥ', 'ä¿¡', 'æģ¯', 'çļĦ', '建', 'è®', '®', 'ï', '¼', 'Į', 'åĴ', '±', '们', 'æĮģ', 'ç»', 'Ń', 'åħ³', '注', 'çļĦ', 'ãĢĤ', '<|10.28|>']], sequences_ids=[[50364, 50260, 50467, 50260, 50567, 50259, 20715, 23414, 2131, 171, 120, 234, 23414, 2131, 171, 120, 234, 27908, 22064, 8861, 46514, 9709, 11340, 4450, 238, 7945, 171, 120, 234, 4450, 238, 7945, 8623, 9487, 10187, 18390, 44059, 33083, 39004, 19550, 16866, 42623, 4200, 6240, 171, 120, 234, 8975, 109, 9497, 1541, 17944, 14872, 99, 24881, 10960, 31906, 47, 12586, 17819, 99, 10178, 114, 1546, 20182, 5708, 27261, 17665, 26460, 1546, 34157, 7422, 106, 171, 120, 234, 8975, 109, 9497, 17694, 10115, 255, 28053, 26432, 1546, 1543, 50878]], scores=[-0.5639367699623108], no_speech_prob=0.0)
- 不使用initial_prompt:
WhisperGenerationResult(sequences=[['<|0.00|>', '<|zh|>', '<|0.26|>', '<|zh|>', '<|2.06|>', '<|zh|>', '<|2.20|>', '<|zh|>', '<|3.08|>', '<|zh|>', '<|3.76|>', '<|zh|>', '<|4.06|>']], sequences_ids=[[50364, 50260, 50377, 50260, 50467, 50260, 50474, 50260, 50518, 50260, 50552, 50260, 50567]], scores=[-2.519230842590332], no_speech_prob=0.0)
- CPU解码
我将官方的whisper模型转换为CTranslate2格式,在CPU上解码时一切正常。
当我将我的微调过的whisper模型转换为CTranslate2格式并在CPU上解码时,我得到了一个空的结果。
回答(1) 发布于 4个月前
回答(3) 发布于 4个月前
回答(3) 发布于 4个月前
回答(1) 发布于 4个月前
回答(1) 发布于 4个月前
1条答案
按热度按时间kq0g1dla1#
Whisper是一种用于自动语音识别(ASR)的预训练模型,它由来自于OpenAI的Alec Radford等人于2022年9月发布。
如果训练空语音数据,sentences字段为[],sentence字段为"",language字段可以不存在。数据可以不包含标点符号,但微调后模型会损失添加符号能力。