我正在使用pagerankbenchmark示例测试单节点集群giraph安装,方法如下:
$HADOOP_HOME/bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/giraph-examples-1.1.0-for-hadoop-2.4.0-jar-with-dependencies.jar org.apache.giraph.benchmark.PageRankBenchmark -v -V 1000 -e 1 -s 5 -w 1
但是在Map绘制者完成他们的工作之后,reducer不会启动(Map100%还原0%,根据控制台)。这是该算法的适当行为吗?
如果一个Map器被执行,reducer必须开始将Map的输出作为输入并完成工作(至少,在互联网上pagerank算法的许多其他实现中,总是有一个“reducer”)。但我在谷歌上搜索了一下,总是用pagerankbenchmark giraph这个例子在其他人运行的这个算法的几个结果中以reduce为0%结束。
所以,我现在不知道是否可以在pagerankbenchmark,我希望有人能在这里帮助我;)
我正在使用hadoop2.4、phadoop\uYarn配置文件和giraph1.1.0。
根据我读到的其他几个问题,“减少0%卡住”问题的主要问题,它可能在mappers日志中,但我没有在那里找到任何东西(我也附上了它们)。
以下是我的日志:
主控制台日志。
第一个Map器
第二个Map器
干杯!
1条答案
按热度按时间mhd8tkvw1#
giraph遵循仅Map的范式。换句话说,每个worker都与一个map任务相关联。所有的计算都是在map任务中执行的,map任务之间的通信是通过zookeeper来完成的,以便发送/接收消息。因此,它不同于传统的map-reduce编程范式,它将输出Map到reducer。因此,没有reduce任务,也没有map输出。