kafka的spark2.4.0结构化流容错

yebdmbv4 于 2021-06-04 发布在 Kafka

关注(0)|答案(1)|浏览(362)

当我阅读Kafka的文章时，我对spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南：
如果出现故障或有意关闭，可以恢复上一个查询的上一个进度和状态，并在其停止的位置继续。这是使用检查点和预写日志完成的。
1）如何重新启动失败的查询？它能自动完成吗？
您可以使用检查点位置配置查询，该查询将把所有进度信息（即每个触发器中处理的偏移量范围）和正在运行的聚合（如快速示例中的字数）保存到检查点位置。此检查点位置必须是hdfs兼容文件系统中的路径，并且可以在启动查询时在datastreamwriter中设置为选项。
2）如果不指定检查点位置，会发生什么情况？是选择了默认位置还是没有容错保证？能否将单个节点的本地非hdfs文件系统的路径指定为检查点位置？

apache-kafka apache-spark spark-structured-streaming fault-tolerance

来源：https://stackoverflow.com/questions/55040102/spark-2-4-0-structured-streaming-fault-tolerance-from-kafka

1条答案

按热度按时间

bqujaahr1#

您可以从streamingcontext.java中找到问题的答案https://spark.apache.org/docs/2.2.0/api/java/org/apache/spark/streaming/streamingcontext.html
无检查点位置-
如果我们不指定检查点的位置，那么我们将无法恢复失败。
默认检查点位置
没有默认的检查点位置。我们需要具体说明。
非hdfs检查点位置
hdfs兼容的目录，其中检查点数据将可靠地存储。请注意，这必须是像hdfs一样的容错文件系统。因此，指定本地检查点位置是没有用的。

赞(0）回复(0）举报 2021-06-05

我来回答

kafka的spark2.4.0结构化流容错

1条答案

相关问题

热门标签

最新问答