我需要将的目录从一个集群复制到另一个具有类似hdf的集群(两者都是mapr集群)。我打算用 DistCp java api。但我想避免目录中文件的重复副本。我想知道这些操作是否容错?i、 e如果由于失去连接而没有完全复制文件,distcp是否再次启动复制以正确复制文件?
DistCp
gajydyqb1#
distcp 使用mapreduce实现其分发、错误处理和恢复以及报告。请参阅更新和覆盖可以使用-overwrite选项来避免重复,此外,还可以选中update选项。如果网络连接失败,一旦其连接恢复,则可以使用覆盖选项重新启动请参阅上述指南链接中提到的-update和-overwrite示例。
distcp
x4shl7ld2#
以下是重构distcp的链接:https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/distcp.html正如“@ramprasad g”所提到的,我想你除了重做distcp之外别无选择。一些好的读物:使用webhdfs的hadoop distcp网络故障http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/两个ha集群之间的distcphttp://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/使用distcp通过s3向altiscale传输数据https://documentation.altiscale.com/transferring-data-using-distcp 这个页面有一个带有retry的shell脚本的链接,这可能对您有所帮助。注:感谢原创作者。
2条答案
按热度按时间gajydyqb1#
distcp
使用mapreduce实现其分发、错误处理和恢复以及报告。请参阅更新和覆盖
可以使用-overwrite选项来避免重复,此外,还可以选中update选项。如果网络连接失败,一旦其连接恢复,则可以使用覆盖选项重新启动
请参阅上述指南链接中提到的-update和-overwrite示例。
x4shl7ld2#
以下是重构distcp的链接:https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/distcp.html
正如“@ramprasad g”所提到的,我想你除了重做distcp之外别无选择。
一些好的读物:
使用webhdfs的hadoop distcp网络故障
http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/
两个ha集群之间的distcp
http://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/
使用distcp通过s3向altiscale传输数据
https://documentation.altiscale.com/transferring-data-using-distcp 这个页面有一个带有retry的shell脚本的链接,这可能对您有所帮助。
注:感谢原创作者。