spark结构化流连接——流静态连接

bis0qfac 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(266)

Spark：2.4.7
python:3.7.6
我正在spark群集上运行以下代码

spark = SparkSession....

# read stream data from kafka, each micro-batch: ~10 rows

ds = spark.readStream....

# load batch data from kafka, batch: 1000 rows

df = spark.read....

ds = ds.join(df, on=[...], how="inner")

ds.writeStream.outputMode("update")....trigger(processingTime="0 seconds").start()

spark web ui的流媒体显示 queryPlanning 为3200ms。
如果不使用join， queryPlanning 只有100毫秒。
为什么是 queryPlanning 加入非常耗时？
谢谢！

apache-spark pyspark

来源：https://stackoverflow.com/questions/67118601/spark-structured-streaming-join-stream-static-joins

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark结构化流连接——流静态连接

暂无答案！

相关问题

热门标签

最新问答