在-00000文件部分中,我们可以找到所有过程的结果(map+reduce),但我希望看到第一步(map)的结果,然后是整个结果。我正在使用pythonmap-reduce脚本开发hadoopcloudera。
j91ykkif1#
如果这只是为了初步分析目的,以便理解数据和键,那么您可能希望将reducer count设置为0,并获得Map的输出-d mapred.reduce.tasks=0是java中的一种方法,对于python也是如此。
fiei3ece2#
我猜您想输出map的结果或map的进程,一种解决方案是将map的结果输出到stderr。例如:如果python:
import sys print >> sys.stderr, "result of map"
如果外壳:
echo -e "result of map" >&2
然后,您可以在hadoop作业日志中看到map的结果
2条答案
按热度按时间j91ykkif1#
如果这只是为了初步分析目的,以便理解数据和键,那么您可能希望将reducer count设置为0,并获得Map的输出-d mapred.reduce.tasks=0是java中的一种方法,对于python也是如此。
fiei3ece2#
我猜您想输出map的结果或map的进程,一种解决方案是将map的结果输出到stderr。例如:如果python:
如果外壳:
然后,您可以在hadoop作业日志中看到map的结果