使用python3将apachespark3.0连接到kafka

elcex8rz 于 2021-06-04 发布在 Kafka

关注(0)|答案(1)|浏览(345)

我正在开发一个小的大数据项目，我想知道是否有一种方法可以使用python3从sparkstreamingv3.0的kafka主题中读取流。
我在报纸上读过https://spark.apache.org/docs/3.0.0-preview/streaming-programming-guide.html 这对于链接工件spark-streaming-kafka-0-10_.12来处理这种流是必要的，但是我发现这些依赖关系与python不兼容（在集成指南中，只有java或scala以及不同版本的spark streaming，我读到对python语言没有支持：https://spark.apache.org/docs/2.4.6/streaming-kafka-integration.html)
我也找到了这个可以回答我问题的链接，但是。。。https://stackoverflow.com/questions/56960981/does-spark-streaming-kafka-0-10-2-10-work-with-python?rq=1
更多细节：实际上，我有一个来自https://openweathermap.org/api 每秒钟发送一次Kafka主题。我想用这条流来计算一个地方在过去的测量中实际温度的变化趋势。
我可以切换当前的堆栈选择，因此欢迎其他建议，但我不会更改python作为我的脚本语言。
提前谢谢。

apache-kafka python-3.x spark-streaming stream-processing

来源：https://stackoverflow.com/questions/62971549/connecting-apache-spark-3-0-to-kafka-using-python3

1条答案

按热度按时间

vuktfyat1#

我通过使用kafkaconsumer库在python中创建一个“connector”脚本来解决这个问题。它从流中获取数据并将它们发布到本地主机上的tcp socker上。spark使用ssc.sockettextstream（“127.0.0.1”，端口）读取这些数据。
我已使用此指南设置代码：https://www.toptal.com/apache/apache-spark-streaming-twitter.

赞(0）回复(0）举报 2021-06-04

我来回答

使用python3将apachespark3.0连接到kafka

1条答案

相关问题

热门标签

最新问答