hadoop块计数计算

bxjv4tth  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(488)

我们正在运行一个hadoop集群,复制因子为3,块大小为64mb。我们只是想知道计算/运行命令的最佳方法,以查看驻留在datanodes上的实际数据大小。
而且,我们试着用 hdfs dfs -du -h 以及 hdfs dfs dfsreport -report ,但我们注意到,如果磁盘大小为12tb:
a) 第一个命令将显示接近500gb的数据使用量
b) 第二个命令将显示11.5tb的数据使用量。
我们在这里遗漏的差异的原因是什么?任何帮助都太好了!

qncylg1j

qncylg1j1#

首先,我想用你提到的第二条命令来纠正你。它是:

hdfs dfsadmin -report

说到为什么结果不同了。现在, du 命令仅显示在dfs上使用的数据,而不显示未使用的dfs。另一方面,第二个命令计算总空间(dfs+非dfs),然后给出所用总数据的详细信息。
它还承载复制的数据量,即如果数据占用5 tb空间,而复制为3,则使用的dfs将为15 tb。
希望能澄清你的疑问。

相关问题