使用python3将apachespark3.0连接到kafka

elcex8rz  于 2021-06-04  发布在  Kafka
关注(0)|答案(1)|浏览(334)

我正在开发一个小的大数据项目,我想知道是否有一种方法可以使用python3从sparkstreamingv3.0的kafka主题中读取流。
我在报纸上读过https://spark.apache.org/docs/3.0.0-preview/streaming-programming-guide.html 这对于链接工件spark-streaming-kafka-0-10_.12来处理这种流是必要的,但是我发现这些依赖关系与python不兼容(在集成指南中,只有java或scala以及不同版本的spark streaming,我读到对python语言没有支持:https://spark.apache.org/docs/2.4.6/streaming-kafka-integration.html)
我也找到了这个可以回答我问题的链接,但是。。。https://stackoverflow.com/questions/56960981/does-spark-streaming-kafka-0-10-2-10-work-with-python?rq=1
更多细节:实际上,我有一个来自https://openweathermap.org/api 每秒钟发送一次Kafka主题。我想用这条流来计算一个地方在过去的测量中实际温度的变化趋势。
我可以切换当前的堆栈选择,因此欢迎其他建议,但我不会更改python作为我的脚本语言。
提前谢谢。

vuktfyat

vuktfyat1#

我通过使用kafkaconsumer库在python中创建一个“connector”脚本来解决这个问题。它从流中获取数据并将它们发布到本地主机上的tcp socker上。spark使用ssc.sockettextstream(“127.0.0.1”,端口)读取这些数据。
我已使用此指南设置代码:https://www.toptal.com/apache/apache-spark-streaming-twitter.

相关问题