**已关闭。**此问题正在寻求书籍、工具、软件库等的建议。它不符合Stack Overflow guidelines。它目前不接受回答。
我们不允许问题寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答问题。
3小时前关闭
Improve this question
我尝试将pdf转换为json格式的文本,使用python提取学术论文的标题,出版年份和内容。
我试过使用fitz、spacy、nltk、PyPDF 2,但是我不能正确地提取标题和出版年份。
我也试过使用OCR,但没有用。
你有什么建议吗?
在此先谢谢您!
1条答案
按热度按时间dldeef671#
这是一个相当棘手的任务,没有明确的答案。需要考虑的几个策略:
首先,有一些API,如Crossref,可以帮助您填补空白。但是,你必须小心,因为准确性并不完美。
其次,你的问题中缺少代码,这妨碍了我在这里的具体性,但是微调一个预先存在的NLP模型可能会有所帮助。Google的entity analysis很不错。这里提到的实体包括
PERSON
,即作者,ORGANIZATION
,我假设期刊名称会被标记,以及DATE
。当然,您必须做一些额外的工作来确保提取的实体是正确的,但这也是一种选择。人们用它来从收据、发票、合同等中提取信息。最终,这是一个相当困难的任务,只从PDF做-做它没有外部帮助(特别是#2)将是非常困难的。