自定义hadoopMap器

jhdbpxl9 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(327)

我要发展的更大目标如下：-
a）一个 Jmeter 板，除了其他功能外，用户还可以上载文档（.pdf、.txt、.doc）。所有这些文档都会转到一个特定的目录。
b）用户还可以查询用特定关键字标记的所有文档。
现在，我想用 Hadoop 执行文档标记。我的目标是通过使用所选单词的词典来实现这一点 .txt （或者可能是 .doc 文件）将很容易处理。不过，据我了解 .pdf 无法直接处理文件。我学会了如何使用 Apache PDFBox . 但是，我不能将这两个集成起来，即hadoop和pdfbox。我想做的是，我的map reduce程序，接收.txt/.pdf/.doc文件的语料库作为输入，在map开始运行之前，执行这个转换 pdf to txt .
我该怎么办？？我想的方向对吗？？请帮忙。

hadoop mapreduce pdfbox

来源：https://stackoverflow.com/questions/17642238/customize-hadoop-mapper