pytorch torch音频特征提取

vktxenjb  于 2023-03-30  发布在  其他
关注(0)|答案(1)|浏览(166)

我一直在使用pytorch音频进行特征提取的教程:https://pytorch.org/audio/0.10.0/pipelines.html#wav2vec-2-0-hubert-representation-learning
它表示结果是一个长度为12的Tensor列表,其中每个条目都是transformer层的输出。因此,列表中的第一个Tensor具有类似(1,2341,768)的形状。
这似乎是正确的,因为我得到这个结果为大多数音频。
然而,对于一些视频,我返回了一个长度为12的Tensor,但条目的batchsize超过了1,这很奇怪。所以形状是(2,2341,768),我很困惑为什么会这样?
任何线索都很好。

xuo3flqw

xuo3flqw1#

这很可能是来自您的传入音频是多通道你可以检查你的输入Tensor的形状,看看输入是否也是“批处理”的,因为它的形状其中L是音频的长度。然后模型的每一层都给你一个形状的表示(2,L’,D),L’是输出序列的长度,D是模型的特征的数量。

相关问题