什么时候使用kafka和spark流媒体?

mklgxw1f  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(470)

我有一个社交平台,用户可以选择创建新的帖子。从现在起,post数据就进入了数据库。我想实现一个流算法来处理这些新职位使用Spark流。
问题1:那么,我想知道如何将这些新帖子从数据库发送到spark流媒体架构?我想知道我是否应该在这里使用Kafka作为中间人(我认为将来可能是可扩展的),或者只是通过一些套接字将数据从数据库流到spark流(如果是,请告诉我如何)。
所使用的数据库是firebase和mongodb(如果对这两个过程都进行了说明,那就更好了)。
问题2:我开始学习Kafka。它提到它可以处理流帖子。那么,为什么不使用kafka来处理流而不是spark流呢?为什么人们主要使用kafka作为消息代理而不是处理流?
提前谢谢。

ibrsph3r

ibrsph3r1#

问题1:你可以使用任何架构作为开始,这完全取决于你能做多少实验和你有多少时间。当有大量数据通过时,使用Kafka作为中间人总是很好的。mongo可以直接与本文中的一些连接器一起使用-https://databricks.com/blog/2015/03/20/using-mongodb-with-spark.html
问题2:spark完全是为处理数据而构建的,而kafka是作为消息传递系统构建的,后者是为其他用例而发展的。因此,没有一个答案不使用Kafka直接作为数据处理器。这就好比我们为什么不使用elasticsearch作为数据的真实性而不是一些数据库。一项技术可能需要一段时间才能稳定下来。https://dzone.com/articles/spark-streaming-vs-kafka-stream-1
希望这有帮助!

相关问题