apachenutch中的优化map reduce操作

fykwrbwg  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(183)

简而言之,1.8:
在爬网开始时,下面详述的map reduce任务似乎运行得更快。然而,在只抓取了40000页之后,map reduce任务似乎要花费更长的时间。查看下面的日志,需要一秒钟才能完成map reduce任务的1%。有没有什么办法让Map缩小任务花这么长时间才能完成?我只是通过 -dir 参数,没有在hadoop中添加配置,也没有使用其他存储库。谢谢。
附加问题:
在进一步调查问题后,仍然无法理解此map reduce任务的作用。纳奇为什么要这样做?

2015-11-19 10:07:16,707 INFO  regex.RegexURLNormalizer (RegexURLNormalizer.java:regexNormalize(174)) - can't find rules for scope 'crawldb', using default
2015-11-19 10:07:17,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 57% reduce 0%
2015-11-19 10:07:22,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:23,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 59% reduce 0%
2015-11-19 10:07:25,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:26,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 60% reduce 0%

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题