hadoop可以做流媒体吗?

s2j5cfk0  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(505)

有人建议hadoop做流媒体,并引用flume和kafka作为例子。
虽然我知道它们可能有流媒体功能,但我想知道它们是否可以与storm/spark/flink等流媒体处理技术并驾齐驱。kafka是一个“发布-订阅模型消息传递系统”,flume是一个数据接收工具。即使它们与hadoop进行交互/集成,它们在技术上是hadoop本身的一部分吗?
ps:我知道hadoop流媒体是完全不同的东西。

vawmfj5a

vawmfj5a1#

hadoop只是yarn、hdfs和mapreduce。作为一个项目,它不适应(近)实时摄取或处理。
hadoop流是一种用于在文件系统流(标准输入/输出)之间操作数据的工具
kafka不仅仅是一个发布/订阅消息队列。
Kafka连接本质上是一个Kafka通道,在Flume术语。存在各种插件用于从不同的“源”读取数据,产生到kafka,然后存在“接收器”用于从kafka到数据库或文件系统。从消费者的Angular 来看,这比跨基础结构部署的单一flume代理更具可伸缩性。如果您一直在寻找对kafka的日志摄取,我个人认为filebeat或fluentd比flume(没有java依赖)更好。
kafka streams与storm、flink和samza是一个可比的产品,除了不存在对yarn或任何集群调度器的依赖,而且可以在任何jvm兼容的应用程序(例如,javaweb应用程序)中嵌入kafka streams处理器。如果不引入对某些外部系统的依赖,那么使用spark或flink来实现这一点会有困难。
flume、nifi、storm、spark等的唯一好处是它们对kafka的赞美,它们与hadoop兼容,并与cassandra等大数据空间中使用的其他系统集成在一起(参见 SMACK (堆叠)
因此,要回答这个问题,您需要使用其他工具来允许hadoop处理和存储流数据。

相关问题