hadoop2.2.0中的数据备份和恢复

xsuvu9jc  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(835)

我是hadoop新手,对hadoop的管理非常感兴趣,所以我尝试在Ubuntu12.04中安装hadoop 2.2.0作为伪分布式模式,安装成功并运行了一些jar示例文件,现在我正在尝试进一步学习,现在尝试学习数据备份和恢复部分,有人能告诉我们如何在hadoop2.2.0中备份和恢复数据吗?同时请推荐一些hadoopadministration的好书和学习hadoopadministration的步骤。
提前谢谢。

ct3nt3jp

ct3nt3jp1#

hadoop中没有经典的备份和恢复功能。有几个原因:
hdfs通过冗余使用块级复制来保护数据。
hdfs在规模上有很大的扩展,而且备份到磁盘而不是磁带变得更加经济。
“大数据”的规模不便于备份。
hadoop不使用备份,而是使用数据复制。在内部,它为每个数据块创建多个副本(默认情况下为3个副本)。它还有一个名为“distcp”的函数,允许您在集群之间复制数据副本。这是大多数hadoop操作员通常对“备份”所做的操作。
一些公司,如cloudera,正在将distcp工具合并到hadoop发行版的“备份”或“复制”服务中。它针对hdfs中的特定目录进行操作,并将其复制到另一个集群。
如果你真的想为hadoop创建一个备份服务,你可以自己手动创建一个。您需要一些访问数据的机制(nfs网关、webfs等),然后可以使用磁带库、VTL等创建备份。

相关问题