我意识到这可以在一台机器上使用HashMap<String,SortedSet>然后是所有文档名称的交集来完成,但是我很好奇Hadoop将如何解决这个问题。
jjhzyzn01#
理想情况下,您更愿意使用Elasticsearch进行文本搜索,但Hadoop仍然对文件和输入流进行操作,因此您可以将子字符串函数传递到mapreduce命令中,并像正常一样搜索文本。不应该使用散列表,因为在文本块中查找子字符串并不需要真实的存储任何数据。
1条答案
按热度按时间jjhzyzn01#
理想情况下,您更愿意使用Elasticsearch进行文本搜索,但Hadoop仍然对文件和输入流进行操作,因此您可以将子字符串函数传递到mapreduce命令中,并像正常一样搜索文本。
不应该使用散列表,因为在文本块中查找子字符串并不需要真实的存储任何数据。