我在hadoop集群(cdh5.14)上有一个项目文件夹,其中包含大约50gb的Parquet文件,我需要将其存档并移动到另一个主机(不适用于windows或linux)。这只是一个一次性的工作—我不打算很快将数据带回hdfs,但是应该有一种方法将其部署回分布式文件系统。最好的方法是什么?不幸的是,我没有另一个hadoop集群或云环境来放置这些数据。如有任何提示,我将不胜感激。
r1zk6ea11#
最佳解决方案可能取决于实际数据(例如表格、许多/很少平面文件)。如果你知道他们是怎么进去的,那么看看反方向可能是合乎逻辑的第一步。例如,如果你只是使用 put 要放置文件,请考虑使用 get .如果你用nifi把它弄进去,试试nifi把它弄出来。当数据在你的linux机器上之后,你可以使用scp或者类似ftp的东西或者一个挂载的驱动器把它移动到你想要的计算机上。
put
get
1条答案
按热度按时间r1zk6ea11#
最佳解决方案可能取决于实际数据(例如表格、许多/很少平面文件)。如果你知道他们是怎么进去的,那么看看反方向可能是合乎逻辑的第一步。
例如,如果你只是使用
put
要放置文件,请考虑使用get
.如果你用nifi把它弄进去,试试nifi把它弄出来。
当数据在你的linux机器上之后,你可以使用scp或者类似ftp的东西或者一个挂载的驱动器把它移动到你想要的计算机上。