hdfs—使用distcp在hadoop中进行数据摄取

4smxwvx5  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(470)

我知道distcp用于集群间/集群内的数据传输。是否可以使用distcp将数据从本地文件系统摄取到hdfs。我知道你可以使用文件:///。。。。指向hdfs之外的本地文件,但与簇间/簇内传输相比,它的可靠性和速度有多快。

qv7cva1a

qv7cva1a1#

distcp是在hadoop集群中执行的mapreduce作业。从hadoop集群的Angular 来看,您的本地计算机不是本地文件系统。那么就不能将本地文件系统与distcp一起使用。另一种方法是在机器中配置一个hadoop集群可以读取的ftp服务器。性能取决于网络和使用的协议(使用hadoop的ftp性能非常差)。
使用hdfs dfs-put命令可以更好地处理少量数据,但它不像distcp那样并行工作。

相关问题