我要发展的更大目标如下:-
a) 一个 Jmeter 板,除了其他功能外,用户还可以上载文档(.pdf、.txt、.doc)。所有这些文档都会转到一个特定的目录。
b) 用户还可以查询用特定关键字标记的所有文档。
现在,我想用 Hadoop
执行文档标记。我的目标是通过使用所选单词的词典来实现这一点 .txt
(或者可能是 .doc
文件)将很容易处理。不过,据我了解 .pdf
无法直接处理文件。我学会了如何使用 Apache PDFBox
. 但是,我不能将这两个集成起来,即hadoop和pdfbox。我想做的是,我的map reduce程序,接收.txt/.pdf/.doc文件的语料库作为输入,在map开始运行之前,执行这个转换 pdf to txt
.
我该怎么办??我想的方向对吗??请帮忙。
1条答案
按热度按时间jvidinwx1#
我假设你有上百万或上亿的文档,你想对它们进行分类,不管它是什么
pdf, txt, doc and so on...
但你真正的问题是如何使用Apache PDFBox
在Mapper
,这里是如何加载用户库的链接hadoop
:链接