我必须处理pdf文件。bigdata中是否有任何工具可以处理我的pdf文档(半结构化数据)??例如。。如果我的pdf文档包含任何主题,如摘要或行动,我必须检索那些没有任何页脚的段落。现在我正在使用pdfbox和javaapi来提取我的pdf文档,但是有没有bigdata工具可以做同样的提取??
cigdeys31#
我不知道有什么工具可以做你想做的事情,但是如果你可以设置一个hadoop集群(或者使用amazonaws服务),那么你可以很容易地使用hadoop流通过一个用户定义的程序来传递pdf文档(你在java中拥有的应该可以很好地工作)。在前面的问题中,有一个很好的例子说明了如何将hadoop流与自定义java程序结合使用。
1条答案
按热度按时间cigdeys31#
我不知道有什么工具可以做你想做的事情,但是如果你可以设置一个hadoop集群(或者使用amazonaws服务),那么你可以很容易地使用hadoop流通过一个用户定义的程序来传递pdf文档(你在java中拥有的应该可以很好地工作)。
在前面的问题中,有一个很好的例子说明了如何将hadoop流与自定义java程序结合使用。