我写了一个mapreduce进程,我发现一个reduce作业比其他作业慢(所有的map作业都完成了),然后我发现“写的本地字节”是:2159972481,大约是其他作业的十倍。这是什么意思?为什么?如何解决这个问题?谢谢。
t0ybt7op1#
就像@mbaxi说的,很可能是你的文件被扭曲了。Map输出中的记录使用散列函数分布在密钥上。因此,如果文件发生倾斜,那么reduce节点将比其他节点做更多的工作。有道理吗?
1条答案
按热度按时间t0ybt7op1#
就像@mbaxi说的,很可能是你的文件被扭曲了。Map输出中的记录使用散列函数分布在密钥上。因此,如果文件发生倾斜,那么reduce节点将比其他节点做更多的工作。有道理吗?