多线程—将大量数据从hdfs移动到hdfs

e1xvtsh3  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(350)

我从不同的供应商那里得到了很多不同格式的数据,我想每天把这些数据转移到一个通用格式的公共场所。所以,我应该每天复制大约x TB的数据。
我现在想避免任何转换,所以,我只想将x TB的数据从我的hdfs移动到我的hdfs中的另一个地方。这可能需要很长时间,有人知道我如何快速移动数据吗??我一直在考虑多线程,它能工作吗?我会尝试让多个线程同时复制文件。现在,只有一根线。

nr7wwzry

nr7wwzry1#

尝试distcp,这是一个用于大型集群间/集群内复制的工具。
看到了吗http://hadoop.apache.org/docs/r0.19.0/distcp.html

相关问题