我有一个spark流媒体应用程序,它可以收听Kafka主题。当得到的数据,我需要处理它,并发送到Kudu。目前我正在使用 org.apache.kudu.spark.kudu.KuduContext API
并使用Dataframe调用insert操作。为了从我的数据中创建Dataframe,我需要调用 collect()
所以我可以使用sqlcontext创建Dataframe。
有没有办法创建dataframe/将数据插入kudu而不调用 collect()
这当然是昂贵的?
我们使用的是spark 1.6
1条答案
按热度按时间31moq8wy1#
kudu sink for spark现在支持结构化流媒体:https://issues.apache.org/jira/browse/kudu-2640