描述问题
对于从右到左的语言,pdf分区器的输出不正确。
重现步骤
我从this link下载了一个样本pdf,然后使用以下代码:
filename = "Path_to_the_sample_pdf_file"
with open(filename, "rb") as f:
files=shared.Files(
content=f.read(),
file_name=filename,
)
req = shared.PartitionParameters(files=files)
try:
resp = client.general.partition(req)
except SDKError as e:
print(e)
得到了以下输出(仅部分内容):
PartitionResponse(content_type='application/json', status_code=200, raw_response=<Response [200]>, elements=[{'type': 'Header', 'element_id': '4e8ada3c22ab6f719d3a16379b9d2ca5', 'text': 'See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/381042047', 'metadata': {'filetype': 'application/pdf', 'languages': ['eng'], 'page_number': 1, 'filename': 'drbarh.pdf'}}, {'type': 'Title', 'element_id': '193c5b2dbecb6826b3e4d0ad1a37e699', 'text': 'يمداكآ و هرمزور يگدنز رد بوخ عورش كي هرابرد', 'metadata': {'filetype': 'application/pdf', 'languages': ['eng'], 'page_number': 1, 'parent_id': '4e8ada3c22ab6f719d3a16379b9d2ca5', 'filename': 'drbarh.pdf'}}, {'type': 'NarrativeText', 'element_id': 'a632662d5c3182a47e0a547204c7a311', 'text': 'Article · June 2024', 'metadata': {'filetype': 'application/pdf',
预期行为
文本应该是这样的(似乎它回退了):
دربارهٔ یک شروع خوب در زندگی روزمره و آکادمی
附加信息
整个文档的文本问题,更改语言也无法解决。
1条答案
按热度按时间gzjq41n41#
你好,@DsDastgheib -感谢你的报告,我们会对此进行查看。抄送:@leah1985