hadoop中的diff数据比较

ffx8fchx 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(621)

有人能为hadoop中两个不同集群的数据比较提供最佳解决方案吗？如果在一个集群上，传入的文件被分割成10个块，并由mapreduce存储在hdfs中，而在另一个集群上，它被存储在5个块中，在一天结束时，我希望这两个集群中的数据有所不同。谢谢

1条答案

通过使用hadoop fsck命令，我们可以检索文件信息。

hadoop fsck / -files -blocks -locations

其余的参数和命令在这里详细介绍http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoop-hdfs/hdfscommands.html#fsck .