unilm 你能提供RVL数据集的hocr结果吗?

eyh26e7m  于 4个月前  发布在  其他
关注(0)|答案(6)|浏览(63)

你好~~我正在使用LayoutLM进行文档分类。我已经通过Tesseract工具为RVL数据集生成了hocr。然而,在完全相同的设置下,我只得到了87.9%的准确率。我猜想我的hocr结果和你的之间可能存在一些差异。为了验证这一点,你能提供你的hocr结果吗?非常感谢!

b4wnujal

b4wnujal1#

@wolfshow 哦~我之前没有注意到这个细节。但是由于IIT数据集太大无法下载,你能帮我提供RVL子集的hocr文件吗?这会对我有很大帮助。

k5ifujac

k5ifujac2#

抱歉,我们无法分发这些hocr文件。

nbewdwxp

nbewdwxp3#

我发现IIT CDIP数据集现在无法下载。当我尝试访问download page时,我会遇到"权限被拒绝的错误"。

ua4mk5z4

ua4mk5z44#

你好~~我正在使用LayoutLM进行文档分类。我已经通过tesseract工具为RVL数据集生成了hocr。然而,在相同的设置下,我只得到了87.9%的准确率。我猜想我的hocr结果和你的之间可能存在一些差异。为了验证这一点,你能提供你的hocr结果吗?非常感谢!
你好,请提供生成hocr的代码。

8yparm6h

8yparm6h5#

作者
Lele-Xie
你能提供一个生成hocr文件的脚本吗,谢谢

1zmg4dgp

1zmg4dgp6#

@Lele-Xie 由于RVL数据集是从IIT-CDIP语料库中提取的,请使用来自IIT-CDIP的原始数据运行tesseract工具,因为RVL数据集中文件的分辨率较低。

相关问题