我有从4张图像中提取的特征。这些图像是视频帧。我想把它们组合成一个形状矢量(1,768)或(1,512)
AvgPooling是最好的方法吗?
import torch
input = torch.rand([1, 4, 768])
sumpool = torch.nn.AdaptiveAvgPool2d((1, 512))
sumpool(input).shape #torch.Size([1, 1, 512])
我还尝试了平均池:
result = torch.sum(visual_output, dim=1) / 4 #(1, 768)
但是好像我哪里错了。使用这些组合功能后结果更糟。一切都正确吗?
1条答案
按热度按时间xmjla07d1#
自适应平均池调整池区域的大小,而平均池类似于AvgPool2d,它通过将输入特征Map划分为几个非重叠区域并计算每个区域的平均值来解决,假设您的输入大小总是与创建的输出大小不同,我们会得到不规则的结果。基本池有这个问题,这就是为什么自适应池出现。