Python -我可以把pdf格式的值转换成DataFrame格式吗?

pbpqsu0x  于 2023-03-28  发布在  Python
关注(0)|答案(2)|浏览(273)

我正在尝试将PDF中的值转换为可以在Python中操作的pandas DataFrame。
我已经附上了一张照片,显示我目前是如何做的,以及一个样本的PDF。提前感谢
Picture of how i do it now
Link to pdf on drive
我尝试了一个解决方案,有人想要类似的东西,但因为我想返回一个底部的dataframe,它不是一个表,它不适合我。

ruarlubt

ruarlubt1#

我不能对你的问题发表评论,因为我没有这样的声誉,但你肯定可以检查出tabula-py项目,以制表您的数据。
由于你的表格格式非常整洁,函数应该能够识别数据,没有太多的麻烦。我很乐意尝试查看你在尝试将数据制表时遇到的任何代码。

iyfjxgzm

iyfjxgzm2#

最好的方法是在操作之前进行预处理,所以在这里我可以简单地转换pdftotext,然后在记事本或excel中调用,并使用excel vba,这些都可以在没有python的情况下完成,或者为了您的使用,您可以使用python将文本编辑为csv,方法是按照excel的方式在所需的列中添加逗号。

无论哪种方式,都只需要一行代码来调用多个文件。

list,of al,l pieces:,,,
,Piece,Widt x,Hei,Q,ty Description
,58,762 x,582,2,@5
,70,762 x,582,2,@5
,16,70 x,564,4,@8
,67,70 x,1250,4,@8
,59,1250 x,582,1,@5
,71,1350 x,582,1,@5
,77,762 x,582,1,@5
,28,744 x,70,1,@8
,44,194 x,70,1,@8
,84,802 x,280,3,@2

因此,取决于你如何清理你的文本,你可以做得比以上原始单行输出更好,因为我们不需要Excel

@pdftotext -nopgbrk -f 1 -l 1 -layout -x 290 -y 530 -W 300 -H 300 cut-sample.pdf out.txt
@echo Pc,W,H,Q,C>out.csv&for /f "usebackq tokens=1,2,4,5,6 delims= " %%f in ("out.txt") do @echo %%f,%%g,%%h,%%i,%%j >>out.csv
@echo/&type out.csv

相关问题