我试图在一个amazonemr集群上建立一个nutch爬虫,它有两个主节点,可伸缩。我的种子url列表只有10000个url,但是我的爬虫程序在MapReduce作业的获取阶段被卡住了,大约90%。它运行了5000个网址。是否有任何配置可能丢失?
kxkpmulp1#
转到MapReduceUI并检查获取阶段的日志。它们可能包含出了什么问题的线索。
1条答案
按热度按时间kxkpmulp1#
转到MapReduceUI并检查获取阶段的日志。它们可能包含出了什么问题的线索。