使用ApacheStorm获取推特流数据的好方法?

11dmarpk  于 2021-06-24  发布在  Storm
关注(0)|答案(0)|浏览(168)

我正在建立一个twitter爬虫系统。要求是抓取twitter配置文件和twitter流媒体。有一个项目经理将所有项目(一个项目是twitter概要文件,或者twitter流媒体的关键字)放入kafka。然后storm将从kafka读取项目元数据并开始运行。项目经理将定期检查所有项目,并最终重新启动项目(通过将数据放入kafka),因此每个项目都有最新的数据。我有几个问题:
因为我们需要保持与twitter流媒体的连接,所以我们不能让twitter流媒体项目运行很长时间。你能建议一个好的方法来做到这一点,比如实现一个单独的进程爬行?
另一个问题是关于代币。我们希望每个访问令牌只在一台服务器上运行,以提高稳定性并防止过早达到速率限制。当一个项目(元组)开始在storm中处理时,它将被分配一个其主管ip的访问令牌。有什么好的解决办法吗?有人建议我使用zookeeper来分配访问令牌,但我不确定这是否是一个好方法以及如何实现?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题