我正在尝试从Kafka中读取数据,我想得到它的计数。它需要很长的时间,因为它只与一个执行者一起工作。我如何增加它?
df = spark.read.format("kafka") \
.option("kafka.bootstrap.servers","localhost:9092") \
.option("includeHeaders","true") \
.option("subscribe","test") \
.load()
df.count()
1条答案
按热度按时间aoyhnmkz1#
你的主题有多少个分区?如果只有一个,那么你不能有更多的执行器。
否则,
--num-executors
作为spark-submit
的标志存在。另外,这段代码只计算一批返回的记录,而不是整个主题,计算整个主题将花费更长的时间。