unilm 重建图像与原始图像在自学习的BeitForMaskedImageModeling中有所不同,

gwbalxhn  于 5个月前  发布在  其他
关注(0)|答案(9)|浏览(67)

亲爱的作者们,
我想将部分遮罩的图像恢复到原始图像。然而,最终的结果与原始图像有很大差异。
我使用了:+) BeitForMaskedImageModeling作为编码器(来自https://huggingface.co/transformers/master/model_doc/beit.html)
+)来自dall_e的解码器(来自https://github.com/openai/DALL-E)

  1. 你能告诉我为什么重建的图像和原始图像有很大的差异吗?
  2. 你能上传解码器在自学习中的最终检查点以恢复遮罩图像吗?
    这是我的代码:
    https://github.com/vince2003/recontruction/blob/main/beit_dall_simple.ipynb
    谢谢!
kq0g1dla

kq0g1dla1#

你好,我实现了BeitForMaskedImageModeling。它对于相同的pixel_valuesbool_masked_pos返回与原始实现完全相同的logits。然而,当在图像上测试它时,它预测的视觉标记中没有一个与DALL-E的分词器中的地面真实视觉标记相对应。
@donglixp 如果您能查看我的笔记本:https://colab.research.google.com/drive/1Mjt-3jHw9HYMXECmSdDlbiG59ZAw-Z0T?usp=sharing,那就太好了。

nnt7mjpx

nnt7mjpx2#

@addf400 可以查看上面的笔记本进行双重检查。

bxpogfeg

bxpogfeg3#

OpenAI的公共解码器(https://cdn.openai.com/dall-e/decoder.pkl)是否可能与本工作中使用的解码器略有不同?我遇到了同样的问题,即从BeitForMaskedImageModeling重构的输出质量远低于输入,即使没有应用掩码。然而,它们之间还是有一些相似之处。我很想知道这方面是否有任何进展~

guykilcj

guykilcj4#

OpenAI的公共解码器(https://cdn.openai.com/dall-e/decoder.pkl)是否可能与本工作中使用的解码器略有不同?我遇到了同样的问题,即从BeitForMaskedImageModeling重构的输出质量远低于输入,即使没有应用掩码。然而,它们之间还是有一些相似之处。我很想知道这方面是否有任何进展~
@vvvm23 是的,我们使用了这个。

# Download the tokenizer weight from OpenAI's DALL-E
TOKENIZER_PATH=/path/to/save/dall_e_tokenizer_weight
mkdir -p $TOKENIZER_PATH
wget -o $TOKENIZER_PATH/encoder.pkl https://cdn.openai.com/dall-e/encoder.pkl
wget -o $TOKENIZER_PATH/decoder.pkl https://cdn.openai.com/dall-e/decoder.pkl
pod7payv

pod7payv5#

@NielsRogge, @addf400
我使用了与NielsRogge的笔记本相同的方法进行BEiT模型推理。我多次运行了他的笔记本代码,每次使用不同的bool_masked_pos。在75个遮罩位置中,我得到了0、1或2次正确预测。因此,NielsRogge关于0次正确预测的帖子只是随机的。如果尝试多次,它可能是1或2次。
然而,0/1/2仍然相当低。这是预期的吗?

mum43rcc

mum43rcc6#

你们有人能解决这个问题吗?
我得到了类似的结果,掩码区域的预测是错误的,因此重建(解码)的图像在掩码区域中具有错误和随机值。

kse8i1jr

kse8i1jr7#

你们有人能解决这个问题吗?我得到了类似的结果,掩码区域的预测是错误的,因此重建(解码)图像在掩码区域中出现了错误和随机值。
根据我的测试,我的“糟糕”结果是可以预料到的BeiT模型。我在测试时使用了线性探测。使用BeiT基本模型进行线性探测效果不佳。关于https://openreview.net/pdf?id=p-BhZSz59o4的BeiT论文中的审查表9有一些详细的结果。

wqnecbli

wqnecbli8#

你们有人能解决这个问题吗?我得到了类似的结果,掩码区域的预测是错误的,因此重建(解码)图像在掩码区域中有错误和随机值。
根据我的测试,我的“糟糕”结果是可以预料到的BeiT模型。我在测试时使用了线性探测。使用BeiT基础模型进行线性探测效果不佳。关于https://openreview.net/pdf?id=p-BhZSz59o4表格9的已审查的BeiT论文有一些详细的结果。
我不确定我是否理解,线性探测与最终类别预测有关。我看到的错误预测是关于标记的,我认为即使使用预训练特征进行正确的标记重构也可以工作,因为这不需要类特定信息。

jhdbpxl9

jhdbpxl99#

对不起,我之前的帖子没有说清楚。在我的案例中,我使用了线性探测法进行最终类别预测。与DINO等其他模型相比,线性探测的结果并不理想。对于您的具体问题,我不确定。

相关问题