hadoop—当数据作为http post消息接收时,有哪些选项可以接收数据、处理数据和写入hdfs?

cu6pst1q  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(418)

我们正在从多个服务器接收http post消息形式的数据。我们希望接收消息,进行一些预处理,然后将其写入hdfs。对实时数据流进行操作的最佳选择是什么?
我读过一些选项:Flume,Kafka,Spark流。如何连接各部分?

anauzrmj

anauzrmj1#

很难说,因为这个问题太笼统了。我可以简单地描述一下我们的管道,因为我们做了完全相同的事情。我们有一些nodejs http服务器,它们将所有传入的请求发送给kafka。然后利用samza对数据进行预处理。萨姆扎读了Kafka的留言,然后把它写回Kafka(另一个主题)。最后,我们使用camus将数据从kafka传输到hdfs(camus现在已被弃用)。也可以使用kafka connect将数据从kafka传输到hdfs。
samza和kafka都是(或曾经是)linkedin项目,因此很容易设置这种架构,samza利用了kafka的一些特性。

相关问题