使用spark流将每个kafka消息保存在hdfs中

h7wcgrx3 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(457)

我用Spark流做分析。经过分析，我必须保存在hdfsKafka消息。每个kafka消息都是一个xml文件。我不能用 rdd.saveAsTextFile 因为这样可以节省整个rdd。rdd的每个元素都是kafka消息（xml文件）。如何使用spark在hdfs中保存每个rdd元素（文件）。

hdfs apache-kafka apache-spark spark-streaming

来源：https://stackoverflow.com/questions/48821799/save-each-kafka-messages-in-hdfs-using-spark-streaming

1条答案

按热度按时间

y1aodyip1#

我会用另一种方式。将转换后的数据流回到kafka，然后使用kafka connect的hdfs连接器将数据流传输到hdfs。Kafka连接是ApacheKafka的一部分。hdfs连接器是开源的，可以单独使用，也可以作为confluent平台的一部分使用。
这样做可以将处理与将数据写入hdfs分离开来，从而使管理、故障排除和扩展变得更容易。

赞(0）回复(0）举报 2021-06-07

我来回答

使用spark流将每个kafka消息保存在hdfs中

1条答案

相关问题

热门标签

最新问答