前提条件
假设apachespark使用yarn部署在hadoop集群上。此外,spark执行正在运行。spark如何处理下列情况?
案例与问题
hadoop集群的一个节点由于磁盘错误而失败。但是,复制足够高,并且没有数据丢失。
在该节点上运行的任务会发生什么情况?
hadoop集群的一个节点由于磁盘错误而失败。复制不够高,数据丢失。simply spark再也找不到预先配置为工作流资源的文件。
它将如何处理这种情况?
在执行过程中,主namenode发生故障切换。
spark是否自动使用故障转移名称节点?
当辅助namenode也失败时会发生什么?
由于某些原因,在工作流期间,集群将完全关闭。
spark会自动重启集群吗?
它是否会在工作流程中恢复到最后一个“保存”点?
我知道,有些问题听起来很奇怪。不管怎样,我希望你能回答一些或全部。提前感谢。:)
1条答案
按热度按时间ajsxfq5m1#
以下是邮件列表给出的问题答案(答案由cloudera的sandy ryza提供):
“spark将在其他节点上重新运行这些任务。”
在尝试读取块的多次任务尝试失败后,spark将放弃hdfs返回的任何错误,并使作业失败
“spark通过普通的hdfs客户端API访问hdfs。在ha配置下,这些将自动故障转移到新的namenode。如果没有留下namenodes,spark作业将失败。“
重启是管理的一部分,“spark支持对hdfs进行检查点设置,因此您可以回到上次调用检查点时hdfs可用的状态。”