pytorch torch音频特征提取

vktxenjb 于 2023-03-30 发布在其他

关注(0)|答案(1)|浏览(166)

我一直在使用pytorch音频进行特征提取的教程：https://pytorch.org/audio/0.10.0/pipelines.html#wav2vec-2-0-hubert-representation-learning
它表示结果是一个长度为12的Tensor列表，其中每个条目都是transformer层的输出。因此，列表中的第一个Tensor具有类似(1,2341,768)的形状。
这似乎是正确的，因为我得到这个结果为大多数音频。
然而，对于一些视频，我返回了一个长度为12的Tensor，但条目的batchsize超过了1，这很奇怪。所以形状是(2,2341,768)，我很困惑为什么会这样？
任何线索都很好。

来源：https://stackoverflow.com/questions/75878301/pytorch-torchaudio-feature-extraction

1条答案

按热度按时间

这很可能是来自您的传入音频是多通道你可以检查你的输入Tensor的形状，看看输入是否也是“批处理”的，因为它的形状其中L是音频的长度。然后模型的每一层都给你一个形状的表示（2，L’，D），L’是输出序列的长度，D是模型的特征的数量。

赞(0）回复(0）举报 2023-03-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前