nutch作为具有定制处理管道的备用spider

ubbxdtey  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(414)

我想使用apachenutch作为一个蜘蛛,它只获取给定的url列表(没有爬行)。URL将存储在redis中,我希望nutch不断地从列表中弹出它们并获取html。蜘蛛需要处于待机模式-它总是等待新的URL进入redis,直到用户决定停止作业。另外,我想将我自己的处理管道应用于提取的html文件(不仅仅是文本提取)。有可能和坚果有关吗?

uqzxnwby

uqzxnwby1#

风暴爬虫将是一个更好的适合实现这一点-它的设计是为了能够满足像你所描述的场景。您需要编写一个自定义的spoutconnect到redis,重用fetcher和parser螺栓,然后使用自己的处理添加螺栓。sc的一些早期用户正是这样做的

相关问题