如果我想在内部部署Hadoop集群上使用distCp,以便它可以将数据“推送”到外部云存储,那么为了利用此工具,必须考虑哪些防火墙因素?实际数据传输在哪些端口上进行?是通过SSH还是端口8020?我需要确保提供源到目标的网络连接,但具有最少的特权(即,只打开绝对需要的端口)。
zkure5ic1#
我不认为SSH用于实际的数据传输,例如,除了您实际登录到集群并启动命令之外。至少,它是NameNode和Datanode的RPC数据传输端口,因此无论您为fs.defaultFS、dfs.namenode.rpc-address和dfs.datanode.address配置了什么
fs.defaultFS
dfs.namenode.rpc-address
dfs.datanode.address
1条答案
按热度按时间zkure5ic1#
我不认为SSH用于实际的数据传输,例如,除了您实际登录到集群并启动命令之外。
至少,它是NameNode和Datanode的RPC数据传输端口,因此无论您为
fs.defaultFS
、dfs.namenode.rpc-address
和dfs.datanode.address
配置了什么