你好,对于任何对LayoutLMv3实现感兴趣的人。转换器已经更新了用于遮罩图像建模的代码,该代码基于DEIT。你可以继承这段代码来实现LayoutLMv3的遮罩图像建模,也可以从RoBERTa继承代码来实现遮罩语言建模。至于词-补丁对齐,我仍在进行中。欢迎大家讨论。
以下是链接:
RoBERTa遮罩语言建模示例
DEIT遮罩图像建模示例
More ideas for developing word patch alignment
其他相关问题链接
huggingface/transformers#13235
#772
2条答案
按热度按时间cigdeys31#
你好,我想补充一下,如果你正在寻找灵感,这里有一个名为https://github.com/dandelin/ViLT/blob/master/vilt/modules/vilt_module.py的项目。'objectives.compute_itm_wpa'是他们的实现。我需要为我的闭源项目进行调整,但我希望我们能在这里建立一些东西。
dgsult0t2#
我正在使用LayoutLMv3进行目标检测,但无法获得input_ids、bbox和attention_mask,只获得了图像。你能帮忙吗?