pytorch 使用AvgPooling连接视频帧

soat7uwm 于 2023-02-04 发布在其他

关注(0)|答案(1)|浏览(122)

我有从4张图像中提取的特征。这些图像是视频帧。我想把它们组合成一个形状矢量（1，768）或（1，512）
AvgPooling是最好的方法吗？

import torch
input = torch.rand([1, 4, 768])
sumpool = torch.nn.AdaptiveAvgPool2d((1, 512))
sumpool(input).shape #torch.Size([1, 1, 512])

我还尝试了平均池：

result = torch.sum(visual_output, dim=1) / 4 #(1, 768)

但是好像我哪里错了。使用这些组合功能后结果更糟。一切都正确吗？

1条答案

自适应平均池调整池区域的大小，而平均池类似于AvgPool2d，它通过将输入特征Map划分为几个非重叠区域并计算每个区域的平均值来解决，假设您的输入大小总是与创建的输出大小不同，我们会得到不规则的结果。基本池有这个问题，这就是为什么自适应池出现。