我正在尝试索引和存储大数据,我对使用什么工具有点困惑。首先,我要说我是个新手,对这个主题只有理论知识。我想:
1) 使用hadoop(当然)
2) 使用三台不同的PC从平面文件中提取日志数据
3) 将数据转换为结构化形式,并加载到hdfs中以进行索引和mapreduce。
我的问题是:
a) 在尝试索引三个字段时,是否可以Map索引Map索引缩减?如果没有,如何建立索引?如果可能,按顺序解释(例如索引图减少)
b) 从提取到储存,正确的工具是什么?
c) hadoop可以用于简单的搜索,还是必须使用lucene/solr等其他工具?
d) 在进行mapreduce阶段之前,必须将数据转换为结构化形式(例如使用pdi)?
2条答案
按热度按时间bjp0bcyl1#
如果你想索引一些存储在hadoop中的数据,那么cloudera搜索是你的最佳用例。链接:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/cloudera-search-user-guide/csug_introducing.html
我目前在goibibo.com上使用它来索引日志数据。您可以使用它来实时索引数据,也可以使用map reduce模式。在内部,它使用solr来索引,并且非常适合您的用例。还可以通过hue公开索引集合。
r3i60tvu2#
我建议使用ElasticSearch或solar来索引大数据。