我想在文本序列长度超过512的完整文档上使用LayoutLMv3。有没有办法扩展它以及如何实现?或者,我可以把文档分成两个序列,然后用图像同时传递它们,这样做会丢失太多上下文吗?
u59ebvdq1#
@ChristiaensBert 是的,这是常见的做法。
h6my8fg22#
我已经使用"bbox": Array2D(dtype="int64", shape=(512, 4)),训练了LayoutLMv3模型,但是文档中的最大框数为928。因此,训练好的模型无法为所有单词(标记)预测标签。我尝试将值512更改为1024和2048,但在训练过程中遇到了ValueError: cannot reshape array of size 2048 into shape (1,1024,4)的问题。所以,有人知道如何更改配置文件以及解决这个问题的任何想法吗?
"bbox": Array2D(dtype="int64", shape=(512, 4)),
512
1024
2048
ValueError: cannot reshape array of size 2048 into shape (1,1024,4)
bq9c1y663#
你好,@rusubbiz-muzkaq,
你是否尝试过在layoutLMV3上处理超过512个标记长度的方法?我也遇到了相同的错误。
ubbxdtey4#
你好,我遇到了与@rusubbiz-muzkaq 和 @jyotiyadav94 相同的问题,并且还没有解决。有任何更新吗?
编辑:$x_{1e0f1}^{x}$
yyhrrdl85#
大家好,我已经让它适用于更长的序列长度。参见#942(评论)。谢谢:)
fxnxkyjh6#
大家好!我在此处解释了如何处理大型令牌的解决方案,希望它能帮助到你们:huggingface/transformers#19190 (评论)
6条答案
按热度按时间u59ebvdq1#
@ChristiaensBert 是的,这是常见的做法。
h6my8fg22#
我已经使用
"bbox": Array2D(dtype="int64", shape=(512, 4)),
训练了LayoutLMv3模型,但是文档中的最大框数为928。因此,训练好的模型无法为所有单词(标记)预测标签。我尝试将值
512
更改为1024
和2048
,但在训练过程中遇到了ValueError: cannot reshape array of size 2048 into shape (1,1024,4)
的问题。所以,有人知道如何更改配置文件以及解决这个问题的任何想法吗?
bq9c1y663#
你好,@rusubbiz-muzkaq,
你是否尝试过在layoutLMV3上处理超过512个标记长度的方法?我也遇到了相同的错误。
ubbxdtey4#
你好,我遇到了与@rusubbiz-muzkaq 和 @jyotiyadav94 相同的问题,并且还没有解决。有任何更新吗?
编辑:$x_{1e0f1}^{x}$
yyhrrdl85#
大家好,
我已经让它适用于更长的序列长度。参见#942(评论)。
谢谢:)
fxnxkyjh6#
大家好!
我在此处解释了如何处理大型令牌的解决方案,希望它能帮助到你们:
huggingface/transformers#19190 (评论)