hadoop用例场景

qlvxas9a 于 2021-06-04 发布在 Hadoop

关注(0)|答案(3)|浏览(280)

我想就在我的一个项目场景中使用hadoop这样的大数据平台提出一些Maven意见。虽然我对mysql这样的数据库很了解，但我对这项技术完全是个新手。
我们正在开发一种产品，用于分析来自社交媒体的数据。因此，输入的数据将是大量的推特，facebook帖子，用户配置文件，youtube数据和博客数据等。除此之外，我将有一个网络应用程序来帮助我查看和分析这些数据。正如需求所表明的，我需要一种实时系统。因此，如果我有一个推特进来，我想有它提供给我的网络应用程序随时处理。批量数据处理可能不适合我的应用程序。
我的问题是：
hadoop引擎对我来说是个好选择吗？
我应该根据什么参数来做决定？
与hadoop相比，使用多集群mysql引擎也是一个不错的选择吗？
在数据的大小和速度方面，hadoop是一个不错的选择吗？

hadoop hadoop2 bigdata

来源：https://stackoverflow.com/questions/25216508/hadoop-use-case-scenario

3条答案

按热度按时间

k3bvogb11#

spark将是解决您问题的最佳方案。您还可以查看其他内存数据库。

赞(0）回复(0）举报 2021-06-04

2ekbmq322#

在这种情况下，我更喜欢lambda架构。
使用lambda体系结构，您有两条路由：一条是使用nosql数据库的快速路由，用于当前信息；另一条是使用hadoop hdfs的批处理路由，用于存档数据；使用merge组件，您可以在一个查询中合并这两个数据源，因此您可以接收大量的数据，这几乎是实时的。
http://lambda-architecture.net/
关于lambda架构的图片：http://i.stack.imgur.com/eofrw.png
我们用lambda架构创建了一个poc项目（也用于twitter分析），它运行良好。

赞(0）回复(0）举报 2021-06-04

x759pob23#

hadoop不适合于近实时/交互式分析。hadoop被设计用来做大批量处理，比如说几个小时的数据加上。我曾经使用hadoop来处理任何大约10gb或更大的数据集（这还是有点过分了），一旦它达到100gb，那么你就需要类似hadoop的东西。
现在我建议使用spark，因为它更现代、更快、更灵活、更强大，并且有一个sparkstreaming模块，可以实现更接近实时的分析。读一读吧！https://spark.apache.org/

赞(0）回复(0）举报 2021-06-04

我来回答

hadoop用例场景

3条答案

相关问题

热门标签

最新问答