有人能帮我建立命令来计算 .snappy hdfs根目录中大于100mb的压缩文件?我使用此命令从根目录获取.snappy文件的计数:
.snappy
hdfs fsck / -files | grep ".snappy" | wc -l
现在我需要计算大于100mb的压缩文件。
dluptydi1#
这是一个使用awk的班轮:
hadoop fs -ls -R /|grep "snappy"|awk -F" " '{ if( $5 >= 104857600 ) print $5" "$8 }'
eivnm1vs2#
使用hdfs和awk命令应该可以做到这一点。这是片段 hdfs dfs -ls -R /path_to_dir/ | awk '{if ($5 >104857600 && $8~/\.snappy/) print $8}'
hdfs dfs -ls -R /path_to_dir/ | awk '{if ($5 >104857600 && $8~/\.snappy/) print $8}'
2条答案
按热度按时间dluptydi1#
这是一个使用awk的班轮:
eivnm1vs2#
使用hdfs和awk命令应该可以做到这一点。这是片段
hdfs dfs -ls -R /path_to_dir/ | awk '{if ($5 >104857600 && $8~/\.snappy/) print $8}'