我试图剥离出只有第一页的多个PDF文件和合并到一个文件。(我每天收到150个PDF文件,第一页是我需要的发票,以下3至12页只是备份,我不需要)因此,输入是150个不同大小的PDF文件,我想要的输出是1个PDF文件,其中只包含150个文件中每个文件的第一页。
我所做的似乎是合并了所有的页面,除了第一页(这是我唯一需要的)。
# Get all PDF documents in current directory
import os
pdf_files = []
for filename in os.listdir("."):
if filename.endswith(".pdf"):
pdf_files.append(filename)
pdf_files.sort(key=str.lower)
# Take first page from each PDF
from PyPDF2 import PdfFileWriter, PdfFileReader
for filename in pdf_files:
reader = PdfFileReader(filename)
writer = PdfFileWriter()
for pageNum in range(1, reader.numPages):
page = reader.getPage(pageNum)
writer.addPage(page)
with open("CombinedFirstPages.pdf", "wb") as fp:
writer.write(fp)
字符串
4条答案
按热度按时间yduiuuwa1#
试试这个:
字符串
t2a7ltrp2#
做了一些修改。下面的代码对我来说是有效的。
字符串
nfzehxib3#
如果PDF没有文本,只包含图像,则其他答案不起作用。下面的答案适用于任何类型的PDF(相关pypdf doc)
字符串
lokaqttq4#
此脚本获取所有PDF文件并将第一页转换为png。在当前执行目录中
字符串