如何使用spark流将数据从kafka插入到kudu

pgvzfuti 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(344)

我有一个spark流媒体应用程序，它可以收听Kafka主题。当得到的数据，我需要处理它，并发送到Kudu。目前我正在使用 org.apache.kudu.spark.kudu.KuduContext API 并使用Dataframe调用insert操作。为了从我的数据中创建Dataframe，我需要调用 collect() 所以我可以使用sqlcontext创建Dataframe。
有没有办法创建dataframe/将数据插入kudu而不调用 collect() 这当然是昂贵的？
我们使用的是spark 1.6

apache-kafka apache-spark apache-kudu spark-streaming

来源：https://stackoverflow.com/questions/51747671/how-to-insert-data-from-kafka-to-kudu-using-spark-streaming