有人能帮助我理解以下与hadoop1.x相关的问题吗?
假设我只有一个节点,其中有8gb的ram和40tb的硬盘以及四核处理器。块大小为64 mb。我们需要处理4 tb的数据。我们如何决定Map器和还原器的数量?
有人能详细解释一下吗?请让我知道,如果我需要考虑任何其他参数的计算。
假设我在一个集群中有10个数据节点,每个节点都有8gb的ram和40tb的四核硬盘。块大小为64mb。我们需要处理40 tb的数据。我们如何决定Map器和还原器的数量?
在具有四核处理器的数据节点中,Map器和缩减器插槽的默认数量是多少?
非常感谢,曼尼什
1条答案
按热度按时间iq3niunx1#
Map器数=分割数。输入文件将被分成几个部分。每个分割都有一组记录。平均而言,每个分割都有一个块大小(64 mb以上)。因此,在您的情况下,您将有大约62500个Map器(或拆分)(4tb/64)。您还可以选择提供可配置的输入拆分大小。通常,这是在读取整个文件一次时完成的,您可以决定如何处理记录。
还原数=Map器输出中唯一键的数目。您可以通过在作业类或jab运行命令中配置减速器来选择减速器的数量。以上数字基于默认哈希分区器。您可以创建自己的分区器,它可以决定减速器的数量。