描述问题
在使用Python SDK进行PDF分区时,元素顺序存在差异。从截图来看,蓝色和红色圆圈(用于突出显示文本)在输出图像中的位置与原始PDF中的正确位置交换了。
重现步骤
使用auto
、fast
和hi_res
策略运行PDF分区。
预期行为
预期的行为是,输出图像中的元素顺序应与原始PDF文档中的放置和颜色编码(蓝色和红色圆圈)相匹配。
截图
环境信息
操作系统版本:macOS-14.2.1-arm64-arm-64bit
Python版本:3.10.12
unstructured版本:0.12.1.dev11
unstructured-inference版本:0.7.18
pytesseract版本:0.3.10
Torch版本:2.1.1
Detectron2未安装
PaddleOCR未安装
Libmagic版本:libmagic:稳定5.45(瓶装)
LibreOffice版本:libreoffice:7.6.4
附加信息
相关问题:#2208
4条答案
按热度按时间x33g5p2x1#
CC @christinestraub
z9ju0rcb2#
@christinestraub - 最近的阅读顺序更新是否已解决此问题?
6jygbczu3#
请分享用于复现此错误的PDF文档,ron-unstructured。
i1icjdpr4#
你好,@christinestraub,请查看附件中的PDF文件。
来源:https://www.researchgate.net/publication/335361817_Software_Engineering_for_Machine_Learning_A_Case_Study