我有1000个PDF格式的扫描外业工作簿。每个都有唯一的文件名。在电子表格中,我有每个的元数据,其中每行有:
索引号、文件名、信息1、信息2、信息3、信息4等。
filename是PDF的确切文件名。info 1只是元数据字段的一个示例,如“年”或其他字段。只有大约8个字段左右,PDF与所有字段都不相关。
我想应该有一个合理的方法来创建一个数据库,mysql,或其他,阅读电子表格(我可以只保存为.csv或.txt或什么)。这部分我相信我可以处理。
我希望能够查找/搜索一个pdf文件的基础上输入各种搜索项目的基础上的元数据,并得到一个结果列表。在一个网络界面,或自定义窗口,并能够点击结果,并打开文件。基本上是一个典型的搜索窗口与预定义的字段,你可以输入并得到结果-就像在一个老学校的图书馆终端。
我有不错的python编程技巧,主要是数学,但也有一些文件技巧。寻找指导,我应该采取什么工具和方法来做到这一点。我的短期目标是能够查询和查找文件,并打开任何结果。长期希望能够与公众分享,这样他们就可以搜索和查找的东西。
在试图弄清楚在网上搜索什么之后,我显然不知所措。你建议我怎么做,我应该使用什么工具或库。我在网上找不到这样的例子。不知道该怎么说。
1条答案
按热度按时间8cdiaqws1#
实际的数据可以用Pandas来完成:
但这并没有给予你一个GUI。你可以使用Flask或Django框架来开发一个Web应用程序。然而,这并不是一夜之间就能掌握的:)这是一个学习这类东西的好课程:https://www.edx.org/course/cs50s-web-programming-with-python-and-javascript?index=product&queryID=01efddd992de28a8b1b27d136111a2a8&position=3