python 从pdf中删除一些图像和文本对象

csbfibhn  于 2023-04-28  发布在  Python
关注(0)|答案(2)|浏览(463)

我有一个带有图像和大量文本的PDF页面对象。
我想删除该图像并根据其内容删除一些文本对象。也就是说,我想得到所有文本对象的内容,然后删除其中一些,如果他们满足条件。
如何使用PyPDF2?有没有其他图书馆可以这样做?

icnyk63a

icnyk63a1#

要使用PyPDF2从PDF文件中删除所有图像,您可以执行以下操作:

from PyPDF2 import PdfFileWriter, PdfFileReader

inputStream = open("src.pdf", "rb")
outputStream = open("dst.pdf", "wb")

src = PdfFileReader(inputStream)
output = PdfFileWriter()

[output.addPage(src.getPage(i)) for i in range(src.getNumPages())]
output.removeImages()

output.write(outputStream)
2sbarzqh

2sbarzqh2#

如果您是新安装的PyPDF2,那么它现在将在3.0.0版本。下面是pyPDF2的更新代码。

from PyPDF2 import PdfReader, PdfWriter 

inputStream = open(r"preprocess.pdf", "rb")
outputStream = open("post_processed.pdf", "wb")

src = PdfReader(inputStream)
output = PdfWriter()

[output.add_page(src.pages[i]) for i in range(0,len(src.pages))]
output.remove_images()

output.write(outputStream)

相关问题