我们正在运行一个hadoop集群,复制因子为3,块大小为64mb。我们只是想知道计算/运行命令的最佳方法,以查看驻留在datanodes上的实际数据大小。
而且,我们试着用 hdfs dfs -du -h
以及 hdfs dfs dfsreport -report
,但我们注意到,如果磁盘大小为12tb:
a) 第一个命令将显示接近500gb的数据使用量
b) 第二个命令将显示11.5tb的数据使用量。
我们在这里遗漏的差异的原因是什么?任何帮助都太好了!
我们正在运行一个hadoop集群,复制因子为3,块大小为64mb。我们只是想知道计算/运行命令的最佳方法,以查看驻留在datanodes上的实际数据大小。
而且,我们试着用 hdfs dfs -du -h
以及 hdfs dfs dfsreport -report
,但我们注意到,如果磁盘大小为12tb:
a) 第一个命令将显示接近500gb的数据使用量
b) 第二个命令将显示11.5tb的数据使用量。
我们在这里遗漏的差异的原因是什么?任何帮助都太好了!
1条答案
按热度按时间qncylg1j1#
首先,我想用你提到的第二条命令来纠正你。它是:
说到为什么结果不同了。现在,
du
命令仅显示在dfs上使用的数据,而不显示未使用的dfs。另一方面,第二个命令计算总空间(dfs+非dfs),然后给出所用总数据的详细信息。它还承载复制的数据量,即如果数据占用5 tb空间,而复制为3,则使用的dfs将为15 tb。
希望能澄清你的疑问。