如何使用pyspark处理来自kafka的数据?

1cklez4t  于 2021-06-04  发布在  Kafka
关注(0)|答案(1)|浏览(511)

我想处理Kafka流到pyspark的日志数据并保存到parquet文件,但我不知道如何将数据输入spark。请帮帮我谢谢。

4ioopgfo

4ioopgfo1#

我的答案很高。您需要使用spark流媒体,并且需要对kafka之类的消息传递系统有一些基本的了解。
将数据发送到kafka(或任何消息传递系统)的应用程序称为“生产者”,从kafka接收数据的应用程序称为“消费者”。当生产者发送数据时,它会将数据发送到特定的“主题”。多个制作者可以在不同的主题下向Kafka层发送数据。
您基本上需要创建一个消费者应用程序。为此,首先需要确定要从中使用数据的主题。
你可以在网上找到许多示例程序。下面的页面可以帮助您构建第一个应用程序
https://www.rittmanmead.com/blog/2017/01/getting-started-with-spark-streaming-with-python-and-kafka/

相关问题