我的hadoop架构的改进建议

j2qf4p5b  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(303)

我想建立一个基于hortonworks的大数据环境,但我不太熟悉所有伟大的工具。很多工具都很相似,但关键在于细节。也许你能帮我验证一下我的想法,这样我就可以从坚实的基础开始。
我想将以下数据资源连接到hadoop:-twitter流-聊天-板-。。。
使用restapi,我希望在每个流或所有流中搜索单个单词。也可以选择在整个数据集中搜索,或者只在过去的24小时内搜索。方法(用例)可以是:
芬德沃特
芬德沃丁查特
...
FindwordinWitter24小时
24小时内完成
...
查找有序流
查找顺序流24H
想法是使用flume、hbase和knox。但它这么简单吗?flume会将数据放入hbase,我可以通过rest获取信息。knox将保护输入和输出连接。但我想,我错过了很多,这并不像我说的那么简单。
可能我需要一个类似kafka的管道来处理每个用例,或者每个流需要一个hbase示例。大量的工具给我留下了深刻的印象,我希望有人能给我一个提示我需要哪些工具。一个小的架构概述和一个解释将是伟大的,所以我得到一个线索来建立它。
谢谢,n3

iqxoj9l9

iqxoj9l91#

@这是一个很难回答的问题。我认为你所描述的肯定是实现你所想的一种方法。我可以告诉您,knoxapi网关无疑是从集群外部访问http资源的好方法。
您可能还需要考虑:
nifi-用于接收twitter流等
storm-用于管道的类似摄入
kafka-用于摄取流的可伸缩性
solr/solrcloud-搜索功能

相关问题