twitter数据获取

t3psigkw  于 2021-06-07  发布在  Kafka
关注(0)|答案(2)|浏览(333)

对于我的项目,我需要从twitter获取数据。
我目前面临两种设计选择:
什么是最好的软件架构?我听说spark有twitter支持,但我对scala并不熟悉。另一方面,apachespark似乎是一个不错的选择,但我不确定如何将数据保存到公共接收器
我有一些预算限制。我当然需要一个服务器来做接收器和处理。然而,对于数据收集,我不知道几个vm/容器是否比一堆运行kafka的raspberry pi提供了更好的性能/成本比。

q5iwbnjs

q5iwbnjs1#

看看汇合平台,尤其是Kafka连接[1]。
有一个现成的twitter连接器。所有的twitter数据都将流到kafka。
[1] https://www.confluent.io/blog/using-ksql-to-analyse-query-and-transform-data-in-kafka

6ojccjat

6ojccjat2#

同意@leshkin的观点,kafka connect是最自然的搭配。但是,twitter连接器(github上提供)不需要合流平台,只需要kafka connect,这是apachekafka发行版的标准部分。https://kafka.apache.org/documentation/#connect
如果您选择,您可以在分布式模式下运行kafka connect workers,将负载划分到多个vm/容器/盒子上,这些盒子不必与您运行kafka代理的盒子相同(当然,它们只需要kafka的一些相关lib以及连接器和java的lib)

相关问题