我已经用hadoop1.2.1和hbase 0.94.x配置了apachenutch2.3。我得在网上爬几个星期。大约100万个文档需要被爬网。我有四节点hadoop集群。在此配置之前,我在单机上设置了nutch并爬网了一些文档。但爬行速度不超过50k~80k。nutch的配置应该是什么,以便它能够每天抓取所需数量的文档。
798qvoo81#
通常,您可以设置更大的topn,也可以更改 <name>http.content.limit</name> 从nutch-site.xml到-1。希望这有帮助,勒库克多
<name>http.content.limit</name>
1条答案
按热度按时间798qvoo81#
通常,您可以设置更大的topn,也可以更改
<name>http.content.limit</name>
从nutch-site.xml到-1。希望这有帮助,
勒库克多