unstructured bug/PDF元素顺序错误

svgewumm  于 5个月前  发布在  其他
关注(0)|答案(4)|浏览(67)

描述问题

在使用Python SDK进行PDF分区时,元素顺序存在差异。从截图来看,蓝色和红色圆圈(用于突出显示文本)在输出图像中的位置与原始PDF中的正确位置交换了。

重现步骤

使用autofasthi_res策略运行PDF分区。

预期行为

预期的行为是,输出图像中的元素顺序应与原始PDF文档中的放置和颜色编码(蓝色和红色圆圈)相匹配。

截图

环境信息

操作系统版本:macOS-14.2.1-arm64-arm-64bit
Python版本:3.10.12
unstructured版本:0.12.1.dev11
unstructured-inference版本:0.7.18
pytesseract版本:0.3.10
Torch版本:2.1.1
Detectron2未安装
PaddleOCR未安装
Libmagic版本:libmagic:稳定5.45(瓶装)
LibreOffice版本:libreoffice:7.6.4

附加信息

相关问题:#2208

z9ju0rcb

z9ju0rcb2#

@christinestraub - 最近的阅读顺序更新是否已解决此问题?

6jygbczu

6jygbczu3#

请分享用于复现此错误的PDF文档,ron-unstructured。

相关问题