我想运行nutch2.3.1在hadoop2上抓取数据。hadoop2有3个节点:
爬虫1:主
爬虫2:从属
爬虫3:从属
我将nutch2.3.1部署到crawler1,并使用以下命令运行它:/usr/local/nutch/deploy/bin/crawlerhdfs://.../urls/seed.txt 测试5
它工作,可以抓取数据,但它看起来像抓取作业只运行在crawler1上,其他节点没有为nutch做任何工作。
我的问题是:
我需要将nutch部署到crawler2和crawler3吗?
我需要在3个节点上运行爬网命令吗?
如果我的步骤错了,什么是正确的步骤?
对不起,我的英语不好,我真的很感激你能提供的任何帮助。
暂无答案!
目前还没有任何答案,快来回答吧!