你好~~我正在使用LayoutLM进行文档分类。我已经通过Tesseract工具为RVL数据集生成了hocr。然而,在完全相同的设置下,我只得到了87.9%的准确率。我猜想我的hocr结果和你的之间可能存在一些差异。为了验证这一点,你能提供你的hocr结果吗?非常感谢!
b4wnujal1#
@wolfshow 哦~我之前没有注意到这个细节。但是由于IIT数据集太大无法下载,你能帮我提供RVL子集的hocr文件吗?这会对我有很大帮助。
k5ifujac2#
抱歉,我们无法分发这些hocr文件。
nbewdwxp3#
我发现IIT CDIP数据集现在无法下载。当我尝试访问download page时,我会遇到"权限被拒绝的错误"。
ua4mk5z44#
你好~~我正在使用LayoutLM进行文档分类。我已经通过tesseract工具为RVL数据集生成了hocr。然而,在相同的设置下,我只得到了87.9%的准确率。我猜想我的hocr结果和你的之间可能存在一些差异。为了验证这一点,你能提供你的hocr结果吗?非常感谢!你好,请提供生成hocr的代码。
8yparm6h5#
作者Lele-Xie你能提供一个生成hocr文件的脚本吗,谢谢
1zmg4dgp6#
@Lele-Xie 由于RVL数据集是从IIT-CDIP语料库中提取的,请使用来自IIT-CDIP的原始数据运行tesseract工具,因为RVL数据集中文件的分辨率较低。
6条答案
按热度按时间b4wnujal1#
@wolfshow 哦~我之前没有注意到这个细节。但是由于IIT数据集太大无法下载,你能帮我提供RVL子集的hocr文件吗?这会对我有很大帮助。
k5ifujac2#
抱歉,我们无法分发这些hocr文件。
nbewdwxp3#
我发现IIT CDIP数据集现在无法下载。当我尝试访问download page时,我会遇到"权限被拒绝的错误"。
ua4mk5z44#
你好~~我正在使用LayoutLM进行文档分类。我已经通过tesseract工具为RVL数据集生成了hocr。然而,在相同的设置下,我只得到了87.9%的准确率。我猜想我的hocr结果和你的之间可能存在一些差异。为了验证这一点,你能提供你的hocr结果吗?非常感谢!
你好,请提供生成hocr的代码。
8yparm6h5#
作者
Lele-Xie
你能提供一个生成hocr文件的脚本吗,谢谢
1zmg4dgp6#
@Lele-Xie 由于RVL数据集是从IIT-CDIP语料库中提取的,请使用来自IIT-CDIP的原始数据运行tesseract工具,因为RVL数据集中文件的分辨率较低。