检查点在apachespark上做什么?

vhipe2zx  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(356)

检查点对apachespark有什么作用,它对ram或cpu有什么影响吗?

r7knjye2

r7knjye21#

来自apache流媒体文档-希望对您有所帮助:
流应用程序必须全天候运行,因此必须能够抵御与应用程序逻辑无关的故障(例如,系统故障、jvm崩溃等)。要做到这一点,spark streaming需要向容错存储系统检查足够的信息,以便它能够从故障中恢复。检查点有两种类型的数据。
元数据检查点—将定义流计算的信息保存到容错存储(如hdfs)。这用于从运行流应用程序驱动程序的节点的故障中恢复(稍后详细讨论)。元数据包括:
配置-用于创建流应用程序的配置。
数据流操作-定义流应用程序的数据流操作集。
不完整批次
作业已排队但尚未完成的批处理。
数据检查点—将生成的RDD保存到可靠的存储中。在一些跨多个批处理组合数据的有状态转换中,这是必需的。在这种转换中,生成的rdd依赖于前一批的rdd,这导致依赖链的长度随着时间的推移而不断增加。为了避免恢复时间的无限增长(与依赖链成比例),有状态转换的中间RDD定期检查到可靠存储(例如HDF)以切断依赖链。
总之,元数据检查点主要用于从驱动程序故障中恢复,而数据或rdd检查点对于使用有状态转换的基本功能也是必需的。

相关问题