unstructured bug/right2left_pdf_output

t3psigkw  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(46)

描述问题

对于从右到左的语言,pdf分区器的输出不正确。

重现步骤

我从this link下载了一个样本pdf,然后使用以下代码:

filename = "Path_to_the_sample_pdf_file"

with open(filename, "rb") as f:
    files=shared.Files(
        content=f.read(),
        file_name=filename,
    )

req = shared.PartitionParameters(files=files)

try:
    resp = client.general.partition(req)
except SDKError as e:
    print(e)

得到了以下输出(仅部分内容):
PartitionResponse(content_type='application/json', status_code=200, raw_response=<Response [200]>, elements=[{'type': 'Header', 'element_id': '4e8ada3c22ab6f719d3a16379b9d2ca5', 'text': 'See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/381042047', 'metadata': {'filetype': 'application/pdf', 'languages': ['eng'], 'page_number': 1, 'filename': 'drbarh.pdf'}}, {'type': 'Title', 'element_id': '193c5b2dbecb6826b3e4d0ad1a37e699', 'text': 'يمداكآ و هرمزور يگدنز رد بوخ عورش كي هرابرد', 'metadata': {'filetype': 'application/pdf', 'languages': ['eng'], 'page_number': 1, 'parent_id': '4e8ada3c22ab6f719d3a16379b9d2ca5', 'filename': 'drbarh.pdf'}}, {'type': 'NarrativeText', 'element_id': 'a632662d5c3182a47e0a547204c7a311', 'text': 'Article · June 2024', 'metadata': {'filetype': 'application/pdf',

预期行为

文本应该是这样的(似乎它回退了):
دربارهٔ یک شروع خوب در زندگی روزمره و آکادمی

附加信息

整个文档的文本问题,更改语言也无法解决。

gzjq41n4

gzjq41n41#

你好,@DsDastgheib -感谢你的报告,我们会对此进行查看。抄送:@leah1985

相关问题