nutch爬行:在生成过程中,是否可以使用多个减速机?

cygmwpex  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(285)

我使用nutch2.x进行爬网,每批url包含大约3-5百万个。
我在分布式模式下运行,使用带有hbase后端的100节点hadoop集群。URL来自成千上万个不同的域。
注入运行很快,但生成阶段可能需要2-4小时才能完成。它只使用一个减速机。Map阶段使用多个Map器,具体取决于输入大小。但总是只有一个减速机。
我的问题是:是否有可能增加在生成作业中使用的减速器的数量,如果有,需要做什么?
我到处寻找答案,但什么也没找到。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题