我想通过python将pdf文件转换为excel并保存在本地。我已经将pdf转换为excel格式,但我应该如何保存在本地?
df = ("./Downloads/folder/myfile.pdf") tabula.convert_into(df, "test.csv", output_format="csv", stream=True)
vmpqdwk31#
您可以指定整个输出路径,而不仅仅是 output.csv
df = ("./Downloads/folder/myfile.pdf") output = "./Downloads/folder/test.csv" tabula.convert_into(df, output, output_format="csv", stream=True)
f8rj6qna2#
在我的例子中,下面的脚本奏效了:
import tabula df = tabula.read_pdf(r'C:\Users\user\Downloads\folder\3.pdf', pages='all') tabula.convert_into(r'C:\Users\user\Downloads\folder\3.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
6xfqseft3#
文件表明:输出文件将保存到output_path
output_path是你的第二个参数,“test.csv”。我猜它工作正常,但是你把它放在了错误的文件夹中。它将位于你的脚本附近(严格地说-在current working directory中),因为你没有指定完整的路径。
ax6ht2ek4#
PDF到.xlsx文件:
for item in df: list1.append(item) df = pd.DataFrame(list1) df.to_excel('outputfile.xlsx', sheet_name='Sheet1', index=True)
vx6bjr1n5#
也可以将camelot与pandas结合使用
camelot
pandas
import camelot import pandas tables = camelot.read_pdf(path_to_pdf, flavor='stream',pages='all') df = pandas.concat([table.df for table in tables]) df.to_csv(path_to_csv)
bcs8qyzn6#
对我有效的代码是下面的代码,但它不能阅读所有的PDF页面,只是中间的几页。我做错了什么?
6条答案
按热度按时间vmpqdwk31#
您可以指定整个输出路径,而不仅仅是 output.csv
f8rj6qna2#
在我的例子中,下面的脚本奏效了:
6xfqseft3#
文件表明:
输出文件将保存到output_path
output_path是你的第二个参数,“test.csv”。我猜它工作正常,但是你把它放在了错误的文件夹中。它将位于你的脚本附近(严格地说-在current working directory中),因为你没有指定完整的路径。
ax6ht2ek4#
PDF到.xlsx文件:
vx6bjr1n5#
也可以将
camelot
与pandas
结合使用bcs8qyzn6#
对我有效的代码是下面的代码,但它不能阅读所有的PDF页面,只是中间的几页。我做错了什么?