如何在分布式模式下运行apachenutch

cbeh67ev  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(384)

我使用的是ApacheNutch2.3。我有一个由4个hadoop(1.2.1)节点组成的小集群。我正在运行爬虫的一个示例。它每天爬行大约3万到5万页。我必须每天抓取更多的网页(假定值约为100万)。我试过不同的问题,从常见问题解答的坚果。但爬网的文件无法增加。我认为我应该在完全分布式模式下运行nutch(我期望nutch的完全分布式模式运行多个示例)。
我的问题有什么解决办法?

wvyml7n5

wvyml7n51#

通常,您应该增加topn值并设置 <name>http.content.limit</name> (在nutch site.xml中)到-1

相关问题