使用python从pdf格式的学术论文中提取标题、出版年份和文本到json格式[已关闭]

vc6uscn9  于 2023-10-21  发布在  Python
关注(0)|答案(1)|浏览(96)

**已关闭。**此问题正在寻求书籍、工具、软件库等的建议。它不符合Stack Overflow guidelines。它目前不接受回答。

我们不允许问题寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答问题。
3小时前关闭
Improve this question
我尝试将pdf转换为json格式的文本,使用python提取学术论文的标题,出版年份和内容。
我试过使用fitz、spacy、nltk、PyPDF 2,但是我不能正确地提取标题和出版年份。
我也试过使用OCR,但没有用。
你有什么建议吗?
在此先谢谢您!

dldeef67

dldeef671#

这是一个相当棘手的任务,没有明确的答案。需要考虑的几个策略:
首先,有一些API,如Crossref,可以帮助您填补空白。但是,你必须小心,因为准确性并不完美。
其次,你的问题中缺少代码,这妨碍了我在这里的具体性,但是微调一个预先存在的NLP模型可能会有所帮助。Google的entity analysis很不错。这里提到的实体包括PERSON,即作者,ORGANIZATION,我假设期刊名称会被标记,以及DATE。当然,您必须做一些额外的工作来确保提取的实体是正确的,但这也是一种选择。人们用它来从收据、发票、合同等中提取信息。
最终,这是一个相当困难的任务,只从PDF做-做它没有外部帮助(特别是#2)将是非常困难的。

相关问题