从emr上运行的spark作业连接到hdfs,在某种程度上,它不会在名称节点失败时受到影响(hdfs已启用ha)

c90pui9n  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(191)

我们使用hdp2.7和hdfs,支持ha。
我们正在emr集群上运行spark作业,hadoop集群是emr集群的远程集群。
hdfs用于检查目录。
最初应用程序使用url:hdfs://“active name node hostname”/user连接到活动名称节点/(url在应用程序中使用活动名称节点hostname硬编码)
但是有一种情况,活动名称节点宕机,备用名称节点变为活动名称节点,在这种情况下,由于硬编码名称节点不可用,应用程序开始失败。
现在,在hadoop集群上运行的应用程序中可以通过在hdfs url中使用名称服务(dfs.nameservices)来处理这个问题,而不是使用活动名称节点的ip地址或主机名。
如何从运行在emr集群上的spark作业处理这个问题。在emr集群上,我们尝试使用名称服务id连接到hdfs,但是由于服务不是任何节点的主机名,我们得到了未知主机异常。
当应用程序在远程emr集群上运行并且hdfs是远程的(从emr连接到hdfs时,在名称节点failuer上不受影响),如何处理这种情况

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题