如何在另一个(非分布式)服务器上归档存储在hdfs文件中的数据?

n9vozmp4  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

我在hadoop集群(cdh5.14)上有一个项目文件夹,其中包含大约50gb的Parquet文件,我需要将其存档并移动到另一个主机(不适用于windows或linux)。这只是一个一次性的工作—我不打算很快将数据带回hdfs,但是应该有一种方法将其部署回分布式文件系统。最好的方法是什么?不幸的是,我没有另一个hadoop集群或云环境来放置这些数据。如有任何提示,我将不胜感激。

r1zk6ea1

r1zk6ea11#

最佳解决方案可能取决于实际数据(例如表格、许多/很少平面文件)。如果你知道他们是怎么进去的,那么看看反方向可能是合乎逻辑的第一步。
例如,如果你只是使用 put 要放置文件,请考虑使用 get .
如果你用nifi把它弄进去,试试nifi把它弄出来。
当数据在你的linux机器上之后,你可以使用scp或者类似ftp的东西或者一个挂载的驱动器把它移动到你想要的计算机上。

相关问题