Pyspark df.count()为什么它只适用于一个执行者?

ruyhziif  于 2023-02-09  发布在  Apache
关注(0)|答案(1)|浏览(135)

我正在尝试从Kafka中读取数据,我想得到它的计数。它需要很长的时间,因为它只与一个执行者一起工作。我如何增加它?

df = spark.read.format("kafka") \
     .option("kafka.bootstrap.servers","localhost:9092") \
     .option("includeHeaders","true") \
     .option("subscribe","test") \
     .load()

df.count()

aoyhnmkz

aoyhnmkz1#

你的主题有多少个分区?如果只有一个,那么你不能有更多的执行器。
否则,--num-executors作为spark-submit的标志存在。
另外,这段代码只计算一批返回的记录,而不是整个主题,计算整个主题将花费更长的时间。

相关问题