大数据的最佳实践?

vm0i2vca  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(359)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。

5年前关门了。
改进这个问题
根据您的经验,我有以下大数据系统:
我们的主要目标是分析每天数十亿条推文,并在我们的门户网站上为决策者展示它们。图形的类型有条形图、柱状图、网络图。到目前为止,我们的系统是这样的:
cloudera平台(cdh),仅用于将数据存储在hdfs中
apacheflume用于从gnip流式传输tweets
用ElasticSearch和php开发图表
我想知道在大数据上,在线可视化和离线可视化的最佳产品组合是什么?

beq87vna

beq87vna1#

您可以继续使用hadoop离线处理大数据
您可以移动apachestorm或apachespark来实时处理大数据。spark+hbase组合可以很好地进行数据的实时处理。spark内存数据库与hbase相结合,使得大数据的实时查询速度非常快。看看这篇文章
关键要点:
用于批处理和实时数据处理的各种hadoop工具

相关问题