unilm Provide a script to get OCR result for RVL-CDIP in layoutLM

xsuvu9jc  于 4个月前  发布在  其他
关注(0)|答案(5)|浏览(65)

描述

我正在使用LayoutLM,请问您能提供一个脚本来准备OCR输出(html格式)以供RVL-CDIP使用吗?readme中提到了Tesseract,但如果能提供脚本会更加方便。

uqxowvwt

uqxowvwt1#

是的,经过训练的模型并不那么有用,如果输入图像的预处理步骤需要被逆向工程,那么论文中报告的实验也不太可重复。

umuewwlo

umuewwlo2#

需要OCR脚本,尤其是用于运行tesseract的参数。如果可能的话,请提供处理后的hocr文件。我现在无法在论文中重复相同的结果。

gkn4icbw

gkn4icbw3#

是的,如果我们无法获取处理后的数据,就很难重复这个结果。你能发布数据吗?

kyxcudwk

kyxcudwk4#

是的,这对我们的研究非常有帮助!

b0zn9rqh

b0zn9rqh5#

是的,还需要OCR输出(html格式)或脚本来理解输入(如布局信息、边界框位置信息等)。谢谢。

相关问题