unilm Some ideas for developing Mask Language Modeling, Mask Image Modeling and Word-Patch Alignment for LayoutLMv3

blpfk2vs 于 5个月前发布在其他

关注(0)|答案(2)|浏览(56)

你好，对于任何对LayoutLMv3实现感兴趣的人。转换器已经更新了用于遮罩图像建模的代码，该代码基于DEIT。你可以继承这段代码来实现LayoutLMv3的遮罩图像建模，也可以从RoBERTa继承代码来实现遮罩语言建模。至于词-补丁对齐，我仍在进行中。欢迎大家讨论。
以下是链接：
RoBERTa遮罩语言建模示例
DEIT遮罩图像建模示例
More ideas for developing word patch alignment
其他相关问题链接
huggingface/transformers#13235
#772

unilm

来源：https://github.com/microsoft/unilm/issues/1076

2条答案

按热度按时间

cigdeys31#

你好，我想补充一下，如果你正在寻找灵感，这里有一个名为https://github.com/dandelin/ViLT/blob/master/vilt/modules/vilt_module.py的项目。'objectives.compute_itm_wpa'是他们的实现。我需要为我的闭源项目进行调整，但我希望我们能在这里建立一些东西。

赞(0）回复(0）举报 5个月前

dgsult0t2#

我正在使用LayoutLMv3进行目标检测，但无法获得input_ids、bbox和attention_mask,只获得了图像。你能帮忙吗？

赞(0）回复(0）举报 5个月前