nutch爬虫无法扩展大型URL

z31licg0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(345)

我试图在一个amazonemr集群上建立一个nutch爬虫,它有两个主节点,可伸缩。我的种子url列表只有10000个url,但是我的爬虫程序在MapReduce作业的获取阶段被卡住了,大约90%。它运行了5000个网址。是否有任何配置可能丢失?

kxkpmulp

kxkpmulp1#

转到MapReduceUI并检查获取阶段的日志。它们可能包含出了什么问题的线索。

相关问题