pytorch 使用AvgPooling连接视频帧

soat7uwm  于 2023-02-04  发布在  其他
关注(0)|答案(1)|浏览(122)

我有从4张图像中提取的特征。这些图像是视频帧。我想把它们组合成一个形状矢量(1,768)或(1,512)
AvgPooling是最好的方法吗?

import torch
input = torch.rand([1, 4, 768])
sumpool = torch.nn.AdaptiveAvgPool2d((1, 512))
sumpool(input).shape #torch.Size([1, 1, 512])

我还尝试了平均池:

result = torch.sum(visual_output, dim=1) / 4 #(1, 768)

但是好像我哪里错了。使用这些组合功能后结果更糟。一切都正确吗?

xmjla07d

xmjla07d1#

自适应平均池调整池区域的大小,而平均池类似于AvgPool2d,它通过将输入特征Map划分为几个非重叠区域并计算每个区域的平均值来解决,假设您的输入大小总是与创建的输出大小不同,我们会得到不规则的结果。基本池有这个问题,这就是为什么自适应池出现。

相关问题