我有一个带有图像和大量文本的PDF页面对象。我想删除该图像并根据其内容删除一些文本对象。也就是说,我想得到所有文本对象的内容,然后删除其中一些,如果他们满足条件。如何使用PyPDF2?有没有其他图书馆可以这样做?
icnyk63a1#
要使用PyPDF2从PDF文件中删除所有图像,您可以执行以下操作:
from PyPDF2 import PdfFileWriter, PdfFileReader inputStream = open("src.pdf", "rb") outputStream = open("dst.pdf", "wb") src = PdfFileReader(inputStream) output = PdfFileWriter() [output.addPage(src.getPage(i)) for i in range(src.getNumPages())] output.removeImages() output.write(outputStream)
2sbarzqh2#
如果您是新安装的PyPDF2,那么它现在将在3.0.0版本。下面是pyPDF2的更新代码。
from PyPDF2 import PdfReader, PdfWriter inputStream = open(r"preprocess.pdf", "rb") outputStream = open("post_processed.pdf", "wb") src = PdfReader(inputStream) output = PdfWriter() [output.add_page(src.pages[i]) for i in range(0,len(src.pages))] output.remove_images() output.write(outputStream)
2条答案
按热度按时间icnyk63a1#
要使用PyPDF2从PDF文件中删除所有图像,您可以执行以下操作:
2sbarzqh2#
如果您是新安装的PyPDF2,那么它现在将在3.0.0版本。下面是pyPDF2的更新代码。