我想和stormcrawler一起使用rabbitmq。我已经看到有一个将rabbitmq与storm结合使用的存储库:https://github.com/ppat/storm-rabbitmq
你怎么用这个来对付风暴爬虫?我想使用生产者以及消费者。
对于消费者来说,似乎有一些文档。制片人呢?你能不能把配置条目放在storm crawler配置中,或者我需要更改rabbitmqproducer的源代码?
我想和stormcrawler一起使用rabbitmq。我已经看到有一个将rabbitmq与storm结合使用的存储库:https://github.com/ppat/storm-rabbitmq
你怎么用这个来对付风暴爬虫?我想使用生产者以及消费者。
对于消费者来说,似乎有一些文档。制片人呢?你能不能把配置条目放在storm crawler配置中,或者我需要更改rabbitmqproducer的源代码?
1条答案
按热度按时间ut6juiuv1#
您希望将url发送到rabbitmq的bolt扩展abstractstatusupdaterbolt,因为超类在引擎盖下做了很多有用的事情,这意味着您不会使用现成的producer,而是需要编写一些自定义代码。
除非您确定不会有重复的URL,否则您需要在将URL发送到队列之前对其进行重复数据消除,这可以通过自定义状态更新程序中的redis来完成。