在hadoop集群上优化nutch性能

8e2ybdfx  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(324)

我正在尝试优化抓取网站的nutch性能。现在我在小型hadoop集群上测试性能,只有两个节点32gbram,cpu为intelxeone3 1245v24c/8t。我的坚果配置http://pastebin.com/bbrhpfuq
所以,问题是:获取工作并不是最佳的。有些reduce任务有4k页用于获取,有些是1k页。例如,请参见屏幕截图https://docs.google.com/file/d/0b98dgnxoqkmvt1doovvpuu1pnxm/edit 有些任务在10分钟内完成,但一个任务工作11小时,仍然继续工作,所以当我有24个减少任务,但只工作一个,这就像一个瓶颈。
可能有人可以给有用的建议或链接,我可以阅读有关问题。

chhqkbe1

chhqkbe11#

从本质上说,这是个问题,一个站点大约需要5万,其他站点需要50万。所以当它按主机创建队列时,我们会看到一个非常大的队列和另一个非常小的队列。

相关问题