我们正在从多个服务器接收http post消息形式的数据。我们希望接收消息,进行一些预处理,然后将其写入hdfs。对实时数据流进行操作的最佳选择是什么?我读过一些选项:Flume,Kafka,Spark流。如何连接各部分?
anauzrmj1#
很难说,因为这个问题太笼统了。我可以简单地描述一下我们的管道,因为我们做了完全相同的事情。我们有一些nodejs http服务器,它们将所有传入的请求发送给kafka。然后利用samza对数据进行预处理。萨姆扎读了Kafka的留言,然后把它写回Kafka(另一个主题)。最后,我们使用camus将数据从kafka传输到hdfs(camus现在已被弃用)。也可以使用kafka connect将数据从kafka传输到hdfs。samza和kafka都是(或曾经是)linkedin项目,因此很容易设置这种架构,samza利用了kafka的一些特性。
1条答案
按热度按时间anauzrmj1#
很难说,因为这个问题太笼统了。我可以简单地描述一下我们的管道,因为我们做了完全相同的事情。我们有一些nodejs http服务器,它们将所有传入的请求发送给kafka。然后利用samza对数据进行预处理。萨姆扎读了Kafka的留言,然后把它写回Kafka(另一个主题)。最后,我们使用camus将数据从kafka传输到hdfs(camus现在已被弃用)。也可以使用kafka connect将数据从kafka传输到hdfs。
samza和kafka都是(或曾经是)linkedin项目,因此很容易设置这种架构,samza利用了kafka的一些特性。