自定义hadoopMap器

jhdbpxl9  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(327)

我要发展的更大目标如下:-
a) 一个 Jmeter 板,除了其他功能外,用户还可以上载文档(.pdf、.txt、.doc)。所有这些文档都会转到一个特定的目录。
b) 用户还可以查询用特定关键字标记的所有文档。
现在,我想用 Hadoop 执行文档标记。我的目标是通过使用所选单词的词典来实现这一点 .txt (或者可能是 .doc 文件)将很容易处理。不过,据我了解 .pdf 无法直接处理文件。我学会了如何使用 Apache PDFBox . 但是,我不能将这两个集成起来,即hadoop和pdfbox。我想做的是,我的map reduce程序,接收.txt/.pdf/.doc文件的语料库作为输入,在map开始运行之前,执行这个转换 pdf to txt .
我该怎么办??我想的方向对吗??请帮忙。

jvidinwx

jvidinwx1#

我假设你有上百万或上亿的文档,你想对它们进行分类,不管它是什么 pdf, txt, doc and so on... 但你真正的问题是如何使用 Apache PDFBoxMapper ,这里是如何加载用户库的链接 hadoop :链接

相关问题