我试图开发一个hadoopmapreduce程序来计算文本文件中的最高温度。
输入文本文件如下所示:
城市1-10
城市2-15
城市3-4
城市4-20
我是mapreduce的初学者,但我读到,使用mapper,输出应该是在有意义的键值对中转换的输入。但是如果我已经有了一个像下面这样的输入文件,我就不需要编写Map器文件(因为已经有键值对了)??
城市110
城市2 15
城市3 4
城市4 10
我试图开发Map文件,但我不明白它是否真的有必要在这种情况下。
代码:
for line in sys.stdin:
line = line.strip()
print line
1条答案
按热度按时间1yjd4xko1#
是的,它总是需要的。Map器仅用于确保reducer接收排序和分区的输入。
这是一个框架设计选择,hadoop需要设置Map器。在您的示例中,可以使用标准
Mapper
/IdentityMapper
.