hadoop(hdfs)-文件版本控制

ccrfmcuu  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(422)

在给定的时间,我的应用程序中有一个用户文件系统(apachecmis)。随着它越来越大,我怀疑是否要转向hadoop(hdfs),因为我们还需要对它运行一些统计数据。问题是:当前的文件系统提供了文件的版本控制。当我读到hadoop-hdfs-和文件版本控制时,我发现大部分时间我必须自己编写这个(版本控制)层。在hdfs中是否已经有了可以用来管理文件版本控制的工具,或者我真的必须自己编写它(不想重新发明热水器,但也找不到合适的解决方案)。
回答
有关详细信息,请参阅下面对答案的评论
hadoop(hdfs)不支持文件的版本控制。当您将hadoop与(amazon)s3结合使用时,您可以获得这个功能:hadoop将使用s3作为文件系统(没有chuncks,但是恢复将由s3提供)。这个解决方案附带了s3提供的文件版本控制。hadoop仍将使用yarn进行分布式处理。

uklbhaso

uklbhaso1#

hdfs支持快照。我认为这已经接近于使用hdfs进行“版本控制”了。

fiei3ece

fiei3ece2#

hdfs无法进行版本控制。
相反,您可以使用amazons3,它提供了版本控制,并且与hadoop兼容。

相关问题