如何使用pyspark处理来自kafka的数据？

1cklez4t 于 2021-06-04 发布在 Kafka

关注(0)|答案(1)|浏览(511)

我想处理Kafka流到pyspark的日志数据并保存到parquet文件，但我不知道如何将数据输入spark。请帮帮我谢谢。

apache-kafka pyspark data-processing

来源：https://stackoverflow.com/questions/62727124/how-can-i-process-data-from-kafka-with-pyspark

1条答案

按热度按时间

4ioopgfo1#

我的答案很高。您需要使用spark流媒体，并且需要对kafka之类的消息传递系统有一些基本的了解。
将数据发送到kafka（或任何消息传递系统）的应用程序称为“生产者”，从kafka接收数据的应用程序称为“消费者”。当生产者发送数据时，它会将数据发送到特定的“主题”。多个制作者可以在不同的主题下向Kafka层发送数据。
您基本上需要创建一个消费者应用程序。为此，首先需要确定要从中使用数据的主题。
你可以在网上找到许多示例程序。下面的页面可以帮助您构建第一个应用程序
https://www.rittmanmead.com/blog/2017/01/getting-started-with-spark-streaming-with-python-and-kafka/

赞(0）回复(0）举报 2021-06-05

我来回答

如何使用pyspark处理来自kafka的数据？

1条答案

相关问题

热门标签

最新问答