distcp容错

13z8s7eq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(395)

我需要将的目录从一个集群复制到另一个具有类似hdf的集群(两者都是mapr集群)。
我打算用 DistCp java api。但我想避免目录中文件的重复副本。我想知道这些操作是否容错?i、 e如果由于失去连接而没有完全复制文件,distcp是否再次启动复制以正确复制文件?

gajydyqb

gajydyqb1#

distcp 使用mapreduce实现其分发、错误处理和恢复以及报告。
请参阅更新和覆盖
可以使用-overwrite选项来避免重复,此外,还可以选中update选项。如果网络连接失败,一旦其连接恢复,则可以使用覆盖选项重新启动
请参阅上述指南链接中提到的-update和-overwrite示例。

x4shl7ld

x4shl7ld2#

以下是重构distcp的链接:https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/distcp.html
正如“@ramprasad g”所提到的,我想你除了重做distcp之外别无选择。
一些好的读物:
使用webhdfs的hadoop distcp网络故障
http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/
两个ha集群之间的distcp
http://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/
使用distcp通过s3向altiscale传输数据
https://documentation.altiscale.com/transferring-data-using-distcp 这个页面有一个带有retry的shell脚本的链接,这可能对您有所帮助。
注:感谢原创作者。

相关问题