我想用一个简单的例子来实现lambda架构。我无法将我的技术堆栈放入lambda体系结构的每一层。
我想实时找出twitter推特上十大热门标签。我列出了每一层的目的http://lambda-architecture.net/.
所有进入系统的数据都被发送到批处理层和速度层进行处理。
批处理层有两个功能:(i)管理主数据集(一个不可变的、仅附加的原始数据集)和(ii)预计算批处理视图。
服务层对批处理视图进行索引,以便以低延迟的特殊方式查询它们。
速度层补偿服务层更新的高延迟,并且只处理最近的数据。
任何传入的查询都可以通过合并批处理视图和实时视图的结果来回答。
我的问题的哪一部分可以用每一层来解决。我正在使用apachespark和hadoophdfs技术栈。
1条答案
按热度按时间jchrr9hc1#
我相信这个链接会对你有所帮助。
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
只有在读取twitter数据并使用flume将其移动到hdfs之后,才应该考虑使用spark-core而不是hive。