为什么一个mapreduce作业的本地字节写入值比其他作业大得多?

fivyi3re  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(352)

我写了一个mapreduce进程,我发现一个reduce作业比其他作业慢(所有的map作业都完成了),然后我发现“写的本地字节”是:2159972481,大约是其他作业的十倍。这是什么意思?为什么?如何解决这个问题?谢谢。

t0ybt7op

t0ybt7op1#

就像@mbaxi说的,很可能是你的文件被扭曲了。Map输出中的记录使用散列函数分布在密钥上。因此,如果文件发生倾斜,那么reduce节点将比其他节点做更多的工作。有道理吗?

相关问题