Spark:2.4.7
python:3.7.6
我正在spark群集上运行以下代码
spark = SparkSession....
# read stream data from kafka, each micro-batch: ~10 rows
ds = spark.readStream....
# load batch data from kafka, batch: 1000 rows
df = spark.read....
ds = ds.join(df, on=[...], how="inner")
ds.writeStream.outputMode("update")....trigger(processingTime="0 seconds").start()
spark web ui的流媒体显示 queryPlanning
为3200ms。
如果不使用join, queryPlanning
只有100毫秒。
为什么是 queryPlanning
加入非常耗时?
谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!