Hadoop查找所有包含单词列表的文档

qco9c6ql  于 12个月前  发布在  Hadoop
关注(0)|答案(1)|浏览(243)

我意识到这可以在一台机器上使用HashMap<String,SortedSet>然后是所有文档名称的交集来完成,但是我很好奇Hadoop将如何解决这个问题。

jjhzyzn0

jjhzyzn01#

理想情况下,您更愿意使用Elasticsearch进行文本搜索,但Hadoop仍然对文件和输入流进行操作,因此您可以将子字符串函数传递到mapreduce命令中,并像正常一样搜索文本。
不应该使用散列表,因为在文本块中查找子字符串并不需要真实的存储任何数据。

相关问题