用例是:我需要将所有数据从一个hdfs集群复制到另一个具有相同的主集群和从集群设置的集群,然后我将释放以前的集群并开始在新集群中运行我的作业。
我读过关于ApacheFalcon和wandisco的不间断hadoop,它们在镜像方面很有帮助。但是当我把它们作为我的生态系统的一部分时,我不确定它们还有什么好处(哪一个更有利?-这将取决于我的用例,但我想知道是否有任何特别)。根据你对猎鹰和旺迪斯科的经验,你能提供一个类似的例子吗?
用例是:我需要将所有数据从一个hdfs集群复制到另一个具有相同的主集群和从集群设置的集群,然后我将释放以前的集群并开始在新集群中运行我的作业。
我读过关于ApacheFalcon和wandisco的不间断hadoop,它们在镜像方面很有帮助。但是当我把它们作为我的生态系统的一部分时,我不确定它们还有什么好处(哪一个更有利?-这将取决于我的用例,但我想知道是否有任何特别)。根据你对猎鹰和旺迪斯科的经验,你能提供一个类似的例子吗?
1条答案
按热度按时间j2datikz1#
(免责声明:我在万迪斯科工作。)
我认为这些产品是互补的。falcon除了做数据传输外,还做很多事情,比如设置数据工作流阶段。wandisco的产品进行主动数据复制(这意味着可以从源集群和目标集群中等效地使用数据)。
在您的用例中,如果您使用falcon,那么实际上是使用distcp将数据复制到新集群中。您可以进行初始传输以获得大部分数据,然后在某个时候需要进行最终切换以获取所有增量,然后您可以让应用程序在新集群上运行。
如果您使用wandisco的产品进行数据传输,您可以同时使用这两个集群,因为复制引擎使用paxos算法协调更改。这可能会使增量迁移更容易。
在其他情况下,您会注意到连续主动复制与distcp之间的区别,例如备份和灾难恢复以及对多个数据中心的接收。希望有帮助。