我正在尝试将PDF中的值转换为可以在Python中操作的pandas DataFrame。
我已经附上了一张照片,显示我目前是如何做的,以及一个样本的PDF。提前感谢
Picture of how i do it now
Link to pdf on drive
我尝试了一个解决方案,有人想要类似的东西,但因为我想返回一个底部的dataframe,它不是一个表,它不适合我。
我正在尝试将PDF中的值转换为可以在Python中操作的pandas DataFrame。
我已经附上了一张照片,显示我目前是如何做的,以及一个样本的PDF。提前感谢
Picture of how i do it now
Link to pdf on drive
我尝试了一个解决方案,有人想要类似的东西,但因为我想返回一个底部的dataframe,它不是一个表,它不适合我。
2条答案
按热度按时间ruarlubt1#
我不能对你的问题发表评论,因为我没有这样的声誉,但你肯定可以检查出
tabula-py
项目,以制表您的数据。由于你的表格格式非常整洁,函数应该能够识别数据,没有太多的麻烦。我很乐意尝试查看你在尝试将数据制表时遇到的任何代码。
iyfjxgzm2#
最好的方法是在操作之前进行预处理,所以在这里我可以简单地转换pdftotext,然后在记事本或excel中调用,并使用excel vba,这些都可以在没有python的情况下完成,或者为了您的使用,您可以使用python将文本编辑为csv,方法是按照excel的方式在所需的列中添加逗号。
无论哪种方式,都只需要一行代码来调用多个文件。
因此,取决于你如何清理你的文本,你可以做得比以上原始单行输出更好,因为我们不需要Excel