Pyspark df.count()为什么它只适用于一个执行者？

ruyhziif 于 2023-02-09 发布在 Apache

关注(0)|答案(1)|浏览(135)

我正在尝试从Kafka中读取数据，我想得到它的计数。它需要很长的时间，因为它只与一个执行者一起工作。我如何增加它？

df = spark.read.format("kafka") \
     .option("kafka.bootstrap.servers","localhost:9092") \
     .option("includeHeaders","true") \
     .option("subscribe","test") \
     .load()

df.count()

apache-spark

来源：https://stackoverflow.com/questions/75390632/pyspark-df-count-why-does-it-work-with-only-one-executor

1条答案

按热度按时间

aoyhnmkz1#

你的主题有多少个分区？如果只有一个，那么你不能有更多的执行器。
否则，--num-executors作为spark-submit的标志存在。
另外，这段代码只计算一批返回的记录，而不是整个主题，计算整个主题将花费更长的时间。

赞(0）回复(0）举报 2023-02-09

我来回答

Pyspark df.count()为什么它只适用于一个执行者？

1条答案

相关问题

热门标签

最新问答