Kafka的Spark补偿管理

wkftcu5l  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(412)

我正在使用spark structured streaming(2.3.2版)。我需要从Kafka集群中读取数据并将其写入kerberizedKafka。在这里,我想在记录写入kerberized kafka之后使用kafka作为偏移检查点。
问题:
我们可以使用kafka作为检查点来管理偏移量,还是只需要使用hdfs/s3?
请帮忙。

lh80um4z

lh80um4z1#

我们可以使用kafka检查点来管理偏移量吗
不,不能将偏移提交回源kafka主题。当然,官方的spark structured streaming+kafka集成指南中也详细介绍了这一点。
或者我们只需要使用hdfs/s3吗?
是的,这必须是类似hdfs或s3的东西。《structuredstreaming编程指南》的“使用检查点从故障中恢复”一节对此进行了说明:“此检查点位置必须是hdfs兼容文件系统中的路径,并且可以在启动查询时在datastreamwriter中设置为选项。”

相关问题