unilm Speech Separation with WavLM-Large

guz6ccqo  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(37)

我正在尝试使用WavLM-Large模型进行s3prl下游任务分离_stft。这是您在SUPERB模型评估中使用的模型吗?
您能否分享一下实际使用该模型创建单独的语音和音乐/背景噪声输出音频文件的代码?

ars1skjm

ars1skjm1#

你好,@bryant0918
是的,我们使用s3prl仓库来评估我们的WavLM模型在所有SUPERB任务上的表现。按照他们的官方实现,我们准备分离数据并进行推理,具体可以参考这个链接:https://github.com/s3prl/s3prl/blob/master/s3prl/downstream/docs/superb.md#ss-source-separation。你也可以通过替换测试数据为你的音频文件来执行这些命令。

btxsgosb

btxsgosb2#

感谢@Sanyuan-Chen,
我还需要使用这些脚本来准备数据以运行评估吗?还是我应该能够直接使用来自:

python3 run_downstream.py -m evaluate \
        -e result/downstream/ExpName/best-states-dev.ckpt \

的任何.wav文件运行测试脚本?
这似乎对我不起作用。run_downstream期望一个由data_prepare脚本创建的.scp文件。你能分享一下.scp文件中应该包含什么内容的例子吗?
此外,我尝试运行./generate_librimix_ss.sh storage_dir来下载数据并查看在评估之前如何准备数据,以便我可以使用自己的数据进行复制,但我得到了错误:

WARNING: cannot verify us.openslr.org's certificate, issued by `/C=US/O=Let's Encrypt/CN=R3':
  Unable to locally verify the issuer's authority.
WARNING: certificate common name `danielpovey.com' doesn't match requested host name `us.openslr.org'.
HTTP request sent, awaiting response... No data received.

所以它没有从openslr.com下载任何LibriMix数据,但它可以从googleapi下载wham数据,一切正常。
我还不知道它从哪里获取danielpovey.com,如果它不在bash脚本中的话。

oknwwptz

oknwwptz3#

更新:为了解决脚本./generate_librimix_ss.sh storage_dir的第二个问题,即不起作用,我使用了curl代替wget。

yrdbyhpb

yrdbyhpb4#

你好@bryant0918
是的,我们使用s3prl仓库来评估我们的WavLM模型在所有SUPERB任务上的表现。按照他们的官方实现,我们准备分离数据并进行推理,具体可以参考这个链接:https://github.com/s3prl/s3prl/blob/master/s3prl/downstream/docs/superb.md#ss-source-separation。你也可以通过替换测试数据为你的音频文件来遵循这些命令。
我已经按照官方实现获取了给定数据集的评估结果以及我自己的结果,我得到了sr_srdi、pesq和stoi的输出分数,这很好。然而,我真的很想执行一次推理并获得两个输出音频文件,一个用于分离语音或背景音乐/噪声,但评估结果没有给出这一点,而且似乎DownstreamExpert for separation_stft没有'inference'属性。

相关问题