代码提取了下面提到的每页的页码,但我需要实际的页码,这是文件的页码,而不是文档的页码。我还附上了屏幕截图,并用红色标记了需要提取的页码。请仔细查看。
这是我试过的代码。
import PyPDF2
import re
obj = PyPDF2.PdfFileReader(r"avnet_202209 (1).pdf")
pgno = obj.getNumPages()
S = "Basis of presentation and new accounting pronouncements"
for i in range(0, pgno):
PgOb = obj.getPage(i)
Text = PgOb.extractText()
if re.search(S,Text):
print("String Found on Page: " + str(i))
结果是:在页面上找到字符串:7在页面上找到字符串:22
所需输出:在页面上找到字符串:8在页面上找到字符串:23
1条答案
按热度按时间zte4gxcn1#
你可能指三件事。
我假设你安装了
pypdf
。我成为了pypdf和PyPDF2的维护者。我们只继续开发pypdf
和pypdf
已经拥有了PyPDF2
的所有特性。1.页面索引
这就是我们的出发点。如果你迭代页面,你只需要保存索引:
例如,当我想打印一些东西时,我需要输入(index+1)。
2.总页数
3.页面标签
例如,this file的前几页标记为
i
、ii
...这些称为“页面标签”。
我最近向add support in pypdf添加了一个PR
我会在星期天(01.01.2023)发布最新版本。然后您可以执行以下操作: