由于超出vm限制,mapreduce处理失败。我们发现的都是数据偏斜,mapreduce因为数据偏斜而失败的背后有什么道理吗?
sycxhyv71#
如果您的数据严重倾斜,那么这意味着一个Map器或缩减器将不得不处理更多的数据。这意味着它需要更多的内存和更长的运行时间。如果您积极地设置了集群的节点管理器内存,那么很容易就会淹没vm或节点。这是一个普遍的问题,也是一个足够大的问题,人们已经就此发表了论文。hadoop中的偏斜管理hadoopmapreduce框架中数据倾斜缓解技术综述hadoopmapreduce框架及数据倾斜问题综述
1条答案
按热度按时间sycxhyv71#
如果您的数据严重倾斜,那么这意味着一个Map器或缩减器将不得不处理更多的数据。这意味着它需要更多的内存和更长的运行时间。如果您积极地设置了集群的节点管理器内存,那么很容易就会淹没vm或节点。
这是一个普遍的问题,也是一个足够大的问题,人们已经就此发表了论文。
hadoop中的偏斜管理
hadoopmapreduce框架中数据倾斜缓解技术综述
hadoopmapreduce框架及数据倾斜问题综述