我正在使用spark structured streaming(2.3.2版)。我需要从Kafka集群中读取数据并将其写入kerberizedKafka。在这里,我想在记录写入kerberized kafka之后使用kafka作为偏移检查点。问题:我们可以使用kafka作为检查点来管理偏移量,还是只需要使用hdfs/s3?请帮忙。
lh80um4z1#
我们可以使用kafka检查点来管理偏移量吗不,不能将偏移提交回源kafka主题。当然,官方的spark structured streaming+kafka集成指南中也详细介绍了这一点。或者我们只需要使用hdfs/s3吗?是的,这必须是类似hdfs或s3的东西。《structuredstreaming编程指南》的“使用检查点从故障中恢复”一节对此进行了说明:“此检查点位置必须是hdfs兼容文件系统中的路径,并且可以在启动查询时在datastreamwriter中设置为选项。”
1条答案
按热度按时间lh80um4z1#
我们可以使用kafka检查点来管理偏移量吗
不,不能将偏移提交回源kafka主题。当然,官方的spark structured streaming+kafka集成指南中也详细介绍了这一点。
或者我们只需要使用hdfs/s3吗?
是的,这必须是类似hdfs或s3的东西。《structuredstreaming编程指南》的“使用检查点从故障中恢复”一节对此进行了说明:“此检查点位置必须是hdfs兼容文件系统中的路径,并且可以在启动查询时在datastreamwriter中设置为选项。”