你好,我想使用wavlm模型来提取说话者嵌入以进行说话者验证任务。在the paper中提到,对于说话者验证任务,应该使用来自Transformer层的表示的加权和。我使用了所有层表示的平均值以及最后一层表示作为说话者的嵌入,并且没有得到两个属于同一个说话者的嵌入之间的合理的余弦相似度。我想问一下,你能否提供给我Transformer层的学习权重,这样我就可以从模型中提取稳健的说话者嵌入。
jjjwad0x1#
你好,@fatemeshiravand。我们已经发布了预训练的说话人验证模型here。请参考README说明和脚本进行说话人表示提取。
0s0u357o2#
感谢您的回复@Sanyuan-Chen。我已经阅读了您为我提供的the repo,并使用WavLM大型模型来比较来自同一说话者和两个不同说话者的音频。在这两种情况下,我都得到了接近1(大约0.99)的余弦相似度,并且我不确定是模型不起作用还是我做错了什么。
2条答案
按热度按时间jjjwad0x1#
你好,@fatemeshiravand。我们已经发布了预训练的说话人验证模型here。请参考README说明和脚本进行说话人表示提取。
0s0u357o2#
感谢您的回复@Sanyuan-Chen。
我已经阅读了您为我提供的the repo,并使用WavLM大型模型来比较来自同一说话者和两个不同说话者的音频。在这两种情况下,我都得到了接近1(大约0.99)的余弦相似度,并且我不确定是模型不起作用还是我做错了什么。