如何使用ApacheNutch2.3每天从web上抓取100万个文档

xe55xuns  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(317)

我已经用hadoop1.2.1和hbase 0.94.x配置了apachenutch2.3。我得在网上爬几个星期。大约100万个文档需要被爬网。我有四节点hadoop集群。在此配置之前,我在单机上设置了nutch并爬网了一些文档。但爬行速度不超过50k~80k。nutch的配置应该是什么,以便它能够每天抓取所需数量的文档。

798qvoo8

798qvoo81#

通常,您可以设置更大的topn,也可以更改 <name>http.content.limit</name> 从nutch-site.xml到-1。
希望这有帮助,
勒库克多

相关问题