Kafka流媒体或spark流媒体

ih99xse1  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(438)

我现在在python中使用kafka。想知道是否需要斯帕克·Kafka,或者我们可以通过皮Kafka来使用Kafka。
我担心的是spark在这个过程中会产生开销(pyspark),如果我们不使用任何spark函数,只需要kafka流。
使用pyspark和kafka spark有哪些不便之处?

of1yzvn4

of1yzvn41#

这完全取决于手头的用例,正如评论中提到的,但是我在几个月前通过了相同的情况,我将尝试转移我的知识以及我是如何决定转移到Kafka流而不是Spark流。
在我的用例中,我们只使用spark从kafka执行实时流,而不执行任何类型的Map缩减、窗口化、过滤和聚合。
鉴于上述情况,我根据3个维度进行了比较:
技术性
德沃斯
成本
下图显示了我说服我的团队迁移到使用kafka流和抑制spark时所做的比较表,成本没有添加到图中,因为它完全取决于集群大小(headnode workernodes)。
v、 注意:同样,这是基于你的情况,我只是想给你一个指针如何做比较,但Spark本身有很多好处,这是无关的描述它在这个问题上。

相关问题