从apache网站下载后,我集成了kafka和spark流媒体。然而,我想用datastax来解决我的大数据问题,我发现你可以很容易地集成cassandra和spark。
但在最新版本的datastax enterprise中,我看不到任何kafka模块。如何将Kafka与spark streaming结合在一起?
我想做的基本上是:
启动必要的代理和服务器
开始制作Kafka
启动Kafka消费者
将spark streaming连接到kafka broker并从那里接收消息
不过,在谷歌快速搜索之后,我看不到Kafka与datastax enterprise合并的任何地方。
我怎样才能做到这一点?我对税收和Kafka都是新手,所以我需要一些建议。语言首选项-python。谢谢!
1条答案
按热度按时间ddarikpa1#
问得好。dse不包含开箱即用的Kafka,您必须自己设置Kafka,然后设置您的spark流作业来阅读Kafka。因为dse确实绑定了spark,所以使用dsesark来运行spark流作业。
您可以使用直接kafkaapi或kafka接收器,这里有更多关于折衷的细节。热释光;dr direct api不需要wal或zookeeper for ha。
下面是一个示例,说明如何配置Kafka以使用卡里·布尔乔亚的dse:
https://github.com/carybourgeois/dse-spark-streaming/tree/master