hadoop中的分析实现

w41d8nur  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(336)

目前,我们有基于mysql的分析。我们每15分钟读取一次日志,处理并添加到mysql数据库。
随着我们的数据不断增长(在一个案例中,到目前为止增加了900万行,每个月增加了50万行),我们计划将分析转移到无sql数据库。
根据我的研究,hadoop似乎更适合我们处理日志&它可以处理非常大的数据集。
不过,如果我能从Maven那里得到一些建议就太好了。

0md85ypi

0md85ypi1#

我同意其他的回答和评论。但如果您想评估hadoop选项,那么可以采用以下一种解决方案。
apache flume和avro用于日志收集,agregation。flume可以将数据摄取到hadoop文件系统(hdfs)中
然后可以将hbase作为分布式可伸缩数据存储。
借助hbase之上的cloudera impala,您可以拥有一个近乎实时(流式)的查询引擎。impala使用sql作为它的查询语言,因此它将对您有益。
这只是一个选择。可以有多种选择,例如Flume+hdfs+Hive。

omhiaaxx

omhiaaxx2#

这可能不是个好问题。对于这个论坛,但我想说,900万行和每月0.5米似乎不是一个很好的理由去nosql。这是一个非常小的数据库,您最好的操作是将服务器扩展一点(ram、更多磁盘、移动到SSD等)

相关问题