unilm 关于标记语言模型预训练的问题

t2a7ltrp  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(51)

描述

我正在使用的模型(MarkupLM)
我对MarkupLM的预训练有一些疑问。

  1. 有很多网页文本很长,你们是如何处理长页面的?
  2. 当网页节点超过最大深度时,我想知道如何进行预处理。
wlp8pajw

wlp8pajw1#

对于长文档,我们使用与LayoutLM相同的预处理方法,将文档分割成长度为512的块。只需修剪较深的节点。

相关问题