使用python从pdf格式的学术论文中提取标题、出版年份和文本到json格式[已关闭]

vc6uscn9 于 2023-10-21 发布在 Python

关注(0)|答案(1)|浏览(96)

**已关闭。**此问题正在寻求书籍、工具、软件库等的建议。它不符合Stack Overflow guidelines。它目前不接受回答。

我们不允许问题寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答问题。
3小时前关闭
Improve this question
我尝试将pdf转换为json格式的文本，使用python提取学术论文的标题，出版年份和内容。
我试过使用fitz、spacy、nltk、PyPDF 2，但是我不能正确地提取标题和出版年份。
我也试过使用OCR，但没有用。
你有什么建议吗？
在此先谢谢您！

JSON

来源：https://stackoverflow.com/questions/77332501/extract-title-publication-year-and-text-from-academic-papers-in-pdf-to-json-for

1条答案

按热度按时间

dldeef671#

这是一个相当棘手的任务，没有明确的答案。需要考虑的几个策略：
首先，有一些API，如Crossref，可以帮助您填补空白。但是，你必须小心，因为准确性并不完美。
其次，你的问题中缺少代码，这妨碍了我在这里的具体性，但是微调一个预先存在的NLP模型可能会有所帮助。Google的entity analysis很不错。这里提到的实体包括PERSON，即作者，ORGANIZATION，我假设期刊名称会被标记，以及DATE。当然，您必须做一些额外的工作来确保提取的实体是正确的，但这也是一种选择。人们用它来从收据、发票、合同等中提取信息。
最终，这是一个相当困难的任务，只从PDF做-做它没有外部帮助（特别是#2）将是非常困难的。

赞(0）回复(0）举报 2023-10-21

我来回答

使用python从pdf格式的学术论文中提取标题、出版年份和文本到json格式[已关闭]

1条答案

相关问题

热门标签

最新问答