hadoop用例场景

qlvxas9a  于 2021-06-04  发布在  Hadoop
关注(0)|答案(3)|浏览(280)

我想就在我的一个项目场景中使用hadoop这样的大数据平台提出一些Maven意见。虽然我对mysql这样的数据库很了解,但我对这项技术完全是个新手。
我们正在开发一种产品,用于分析来自社交媒体的数据。因此,输入的数据将是大量的推特,facebook帖子,用户配置文件,youtube数据和博客数据等。除此之外,我将有一个网络应用程序来帮助我查看和分析这些数据。正如需求所表明的,我需要一种实时系统。因此,如果我有一个推特进来,我想有它提供给我的网络应用程序随时处理。批量数据处理可能不适合我的应用程序。
我的问题是:
hadoop引擎对我来说是个好选择吗?
我应该根据什么参数来做决定?
与hadoop相比,使用多集群mysql引擎也是一个不错的选择吗?
在数据的大小和速度方面,hadoop是一个不错的选择吗?

k3bvogb1

k3bvogb11#

spark将是解决您问题的最佳方案。您还可以查看其他内存数据库。

2ekbmq32

2ekbmq322#

在这种情况下,我更喜欢lambda架构。
使用lambda体系结构,您有两条路由:一条是使用nosql数据库的快速路由,用于当前信息;另一条是使用hadoop hdfs的批处理路由,用于存档数据;使用merge组件,您可以在一个查询中合并这两个数据源,因此您可以接收大量的数据,这几乎是实时的。
http://lambda-architecture.net/
关于lambda架构的图片:http://i.stack.imgur.com/eofrw.png
我们用lambda架构创建了一个poc项目(也用于twitter分析),它运行良好。

x759pob2

x759pob23#

hadoop不适合于近实时/交互式分析。hadoop被设计用来做大批量处理,比如说几个小时的数据加上。我曾经使用hadoop来处理任何大约10gb或更大的数据集(这还是有点过分了),一旦它达到100gb,那么你就需要类似hadoop的东西。
现在我建议使用spark,因为它更现代、更快、更灵活、更强大,并且有一个sparkstreaming模块,可以实现更接近实时的分析。读一读吧!https://spark.apache.org/

相关问题