有没有办法为hdfs中的某些目录设置ttl?

nle07wnf  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(719)

我有以下要求。我正在向hdfs中的一个特定目录添加按日期排序的数据,我需要保留最后3个数据集的备份,并删除其余的数据集。有没有一种方法可以为目录设置一个ttl,以便数据在一定的天数后自动消失?
如果没有,有没有办法达到类似的效果?

rbpvctlc

rbpvctlc1#

此功能在hdfs上尚不可用。
创建了一个jira票证来支持此功能:https://issues.apache.org/jira/browse/hdfs-6382
但是,目前还没有解决办法。
你需要使用cron作业来处理它。您可以创建一个作业(可以是一个简单的shell、perl或python脚本),该作业定期删除比某个预先配置的周期早的数据。
这项工作可以:
定期运行(例如每小时一次或每天一次)
将需要检查的文件夹或文件列表及其ttl作为输入
删除任何早于指定ttl的文件或文件夹。
这可以很容易地实现,使用脚本。

相关问题