我从不同的供应商那里得到了很多不同格式的数据,我想每天把这些数据转移到一个通用格式的公共场所。所以,我应该每天复制大约x TB的数据。我现在想避免任何转换,所以,我只想将x TB的数据从我的hdfs移动到我的hdfs中的另一个地方。这可能需要很长时间,有人知道我如何快速移动数据吗??我一直在考虑多线程,它能工作吗?我会尝试让多个线程同时复制文件。现在,只有一根线。
nr7wwzry1#
尝试distcp,这是一个用于大型集群间/集群内复制的工具。看到了吗http://hadoop.apache.org/docs/r0.19.0/distcp.html
1条答案
按热度按时间nr7wwzry1#
尝试distcp,这是一个用于大型集群间/集群内复制的工具。
看到了吗http://hadoop.apache.org/docs/r0.19.0/distcp.html