如何在另一个(非分布式)服务器上归档存储在hdfs文件中的数据？

n9vozmp4 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(330)

我在hadoop集群（cdh5.14）上有一个项目文件夹，其中包含大约50gb的Parquet文件，我需要将其存档并移动到另一个主机（不适用于windows或linux）。这只是一个一次性的工作—我不打算很快将数据带回hdfs，但是应该有一种方法将其部署回分布式文件系统。最好的方法是什么？不幸的是，我没有另一个hadoop集群或云环境来放置这些数据。如有任何提示，我将不胜感激。

hadoop hdfs parquet cloudera-cdh

来源：https://stackoverflow.com/questions/58272052/how-to-archive-data-stored-in-hdfs-files-on-another-non-distributed-server

1条答案

按热度按时间

r1zk6ea11#

最佳解决方案可能取决于实际数据（例如表格、许多/很少平面文件）。如果你知道他们是怎么进去的，那么看看反方向可能是合乎逻辑的第一步。
例如，如果你只是使用 put 要放置文件，请考虑使用 get .
如果你用nifi把它弄进去，试试nifi把它弄出来。
当数据在你的linux机器上之后，你可以使用scp或者类似ftp的东西或者一个挂载的驱动器把它移动到你想要的计算机上。

赞(0）回复(0）举报 2021-05-27

我来回答

如何在另一个(非分布式)服务器上归档存储在hdfs文件中的数据？

1条答案

相关问题

热门标签

最新问答