pytorch 寻求编程方法将PDF文件转换为文本语料库?[关闭]

xmakbtuz  于 2023-04-21  发布在  其他
关注(0)|答案(1)|浏览(96)

已关闭,该问题需要details or clarity,目前不接受回答。
**想要改进此问题?**通过editing this post添加详细信息并澄清问题。

10小时前关闭。
Improve this question
Seek方法将一个或多个PDF文件转换为文本语料库,用于上游自然语言处理。PyTorch框架。

umuewwlo

umuewwlo1#

如果我正确理解了你的问题,你正在寻找一种从PDF中提取文本的方法。你可以使用PyPDF2来做到这一点。下面是他们的documentation的一个例子:

from PyPDF2 import PdfReader

reader = PdfReader("example.pdf")
number_of_pages = len(reader.pages)
page = reader.pages[0]
text = page.extract_text()

相关问题