streaming-kafka-0-10 lib?

r7s23pms  于 2021-06-08  发布在  Kafka
关注(0)|答案(2)|浏览(409)

我的kafka集群版本是0.10.0.0,我想使用pyspark流来读取kafka数据。但在spark streaming+kafka集成指南中,http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 没有python代码示例。那么pyspark可以使用spark-streaming-kafka-0-10来集成kafka吗?
提前感谢您的帮助!

c90pui9n

c90pui9n1#

当代理为0.10或更高版本时,可以使用spark-streaming-kafka-0-8。spark-streaming-kafka-0-8支持较新的代理版本,而streaming-kafka-0-10不支持较旧的代理版本。到目前为止,streaming-kafka-0-10仍然是实验性的,没有python支持。

2eafrhcq

2eafrhcq2#

我还将spark流与kafka 0.10.0群集一起使用。在代码中添加以下行之后,就可以开始了。

spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0

下面是python的一个示例:


# Initialize SparkContext

sc = SparkContext(appName="sampleKafka")

# Initialize spark stream context

batchInterval = 10
ssc = StreamingContext(sc, batchInterval)

# Set kafka topic

topic = {"myTopic": 1}

# Set application groupId

groupId = "myTopic"

# Set zookeeper parameter

zkQuorum = "zookeeperhostname:2181"

# Create Kafka stream

kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, groupId, topic)

# Do as you wish with your stream

# Start stream

ssc.start()
ssc.awaitTermination()

相关问题