apachenutch2.x中的电源故障处理

5cnsuln7  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(161)

我已经设置了一个集群从www上抓取一些网站。我正在使用apachenutch2.3.1和hadoop和hbase。我也有群集备份。但当电源故障持续很长时间后,即使这个备份也会完成,整个集群也会在短时间内停机。当电源问题(不知何故)解决后,我想从上次的位置恢复工作。例如,如果我的爬虫正在爬行1000个URL,在50%之后,集群就会关闭。我希望nutch应该只获取剩余的50%,而不应该获取那些已经获取的文档。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题