我注意到sss不会处理等待批次,如果之后没有批次。我看到的是,当spark将Parquet地板写入hdfs时,它必须始终在kafka上留下一批等待消费的东西。
很显然,这与Spark在每批产品之后的清洁方式有关。
有一个jira在:
https://issues.apache.org/jira/browse/spark-24156
也就是说,它在2.4.0中得到了解决,但我的代码使用的是2.4.2,但是我仍然看到spark不愿意使用来自kafka的另一批代码,如果这意味着在这个主题中没有其他东西等待处理的话。
我需要做一些特别的事情来利用spark-24156所说的行为吗?
暂无答案!
目前还没有任何答案,快来回答吧!