了解hadoop中的自定义分区器

kxxlusnw 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(493)

我正在学习分区器的概念。有人能给我解释一下下面的代码吗？我很难理解
public class TaggedJoiningPartitioner extends Partitioner<TaggedKey,Text> { @Override public int getPartition(TaggedKey taggedKey, Text text, int numPartitions) { return taggedKey.getJoinKey().hashCode() % numPartitions; } }
这个taggedkey.getjoinkey（）.hashcode（）%numpartitions如何决定要为一个键执行哪个reducer？
有人能给我解释一下吗？

hadoop mapreduce hadoop-partitioning reducers Mapper

来源：https://stackoverflow.com/questions/18356037/understanding-custom-partitioner-in-hadoop

1条答案

按热度按时间

9q78igpj1#

一旦你把事情分解一点，事情就没有你想象的那么复杂了。 taggedKey.getJoinKey().hashCode() 只返回一个整数。每个物体都有一个 hashCode() 函数，只返回一个对该对象本身唯一的数字。你可以查一下 TaggedKey 如果您愿意，可以查看它的工作方式，但您需要知道的是，它返回一个基于对象内容的整数。
这个 % 运算符执行模数除法，这是执行除法后返回余数的地方(8%3=2，15%7=1等）。
假设有3个分区器（numpartitions=3）。每次你用3除模，你会得到0，1，或2，不管传递的是什么数字。这用于确定3个分区中的哪一个将获得数据。
分区器的整体思想是，您可以使用它们对要排序的数据进行分组。如果您想按月份排序，可以将字符串为“一月”的每一个数据段传递给第一个分区，将“十二月”传递给第12个分区，等等。但是在您的例子中，外部看起来有点混乱。但实际上，他们只是希望将数据均匀地分布（希望如此），所以他们使用一个简单的哈希/模函数随机选择分区。

赞(0）回复(0）举报 2021-06-03

我来回答

了解hadoop中的自定义分区器

1条答案

相关问题

热门标签

最新问答