ApacheNutch在处理100多万个获取的页面时无限期地挂在updatedb上

rqenqsqc  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(186)

我使用apachenutch已经有一段时间了,只要我的回迁量保持在100万页左右,它就可以正常工作。但是,一旦我进入百万,updatedb永远不会完成-我已经等了好几天,几乎一个星期一次它完成。
有明显的原因吗?如果是的话,有什么缓解措施吗?
我看到过使用hadoop而不是hbase的讨论,我也尝试过使用hadoop,但是遇到了很多问题。但是,这能解决问题吗?
感谢所有的帮助。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题