spark structured streaming不会从Kafka那里拿到最后一批

jtw3ybtb  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(303)

我注意到sss不会处理等待批次,如果之后没有批次。我看到的是,当spark将Parquet地板写入hdfs时,它必须始终在kafka上留下一批等待消费的东西。
很显然,这与Spark在每批产品之后的清洁方式有关。
有一个jira在:
https://issues.apache.org/jira/browse/spark-24156
也就是说,它在2.4.0中得到了解决,但我的代码使用的是2.4.2,但是我仍然看到spark不愿意使用来自kafka的另一批代码,如果这意味着在这个主题中没有其他东西等待处理的话。
我需要做一些特别的事情来利用spark-24156所说的行为吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题