如何在hadoopmapreduce中处理负载平衡?

tsm1rwdh  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(393)

在hadoopmapreduce中如何处理负载平衡?我正在编写一个分布式应用程序,其中服务器根据基准测试、可用内存、cpu核心数、cpu使用率、可用GPU数/使用率将作业分配给工作节点?我对mapreduce不是很有经验,也读过apache网站上的一些文档,但仍然不知道如何着手解决这个问题。我可以做基准计算,得到所有这些信息,然后通过一个算法来动态分割输入吗?
谢谢您!

b5lpy0ml

b5lpy0ml1#

mapreduce系统的性能在很大程度上依赖于均匀的数据分布。apachemapreduce框架使用一种简单的方法来分配工作负载,并为每个reducer分配相同数量的集群。
负载不平衡,提高了处理时间,甚至放大fireducer任务的高运行时复杂性使它变得更加复杂。一个自适应的负载平衡策略需要解决一个问题,即根据给定的成本模型来估计分配给减速机的任务的成本。

hrysbysz

hrysbysz2#

“mapreduce是一个编程模型和一个相关的实现,用于处理和生成大型数据集”摘自mapreduce论文摘要。
正如您在评论中所说,您的项目似乎不是数据密集型的,而是计算密集型的,因此我认为mapreduce不是您需要使用的工具。

相关问题