数据湖存储的备份

cigdeys3  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(440)

我正在为data lake store(dls)制定备份策略。我的计划是创建两个dls帐户并在它们之间复制数据。我已经评估了几种方法来实现这一点,但是没有一种方法满足保留posixacl(dls术语中的权限)的要求。powershell cmdlet要求将数据从主dls下载到vm,然后重新上载到辅助dls。adlcopy工具只在windows10上工作,不保留权限,也不支持跨区域复制数据(这不是一个硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。这就引出了我的最后一个选择——distcp。根据distcp指南(https://hadoop.apache.org/docs/current/hadoop-distcp/distcp.html),该工具支持保留权限。但是,使用distcp的缺点是该工具必须从hdinsight运行。尽管它支持集群内和集群间的复制,但我不希望只有一个运行hdinsight集群用于备份操作。我错过什么了吗?有人有更好的建议吗?

6ovsh4lw

6ovsh4lw1#

你的评估很全面。如果您想通过权限进行复制,这些确实是可用的选项。所以你得选一个,对不起。如果您真的想要一个无服务器的选项来复制权限,那么azure数据工厂就必须是它。请在这里创建一个反馈项目-https://feedback.azure.com/forums/270578-data-factory?
谢谢,sachin sheth,azure数据湖项目经理。

相关问题