spark结构化流媒体与kafka消费者/生产者

myzjeezk  于 2021-06-06  发布在  Kafka
关注(0)|答案(2)|浏览(350)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

去年关门了。
改进这个问题
我有一个用例,我的应用程序需要读取Kafka主题中的studentid和其他相关信息,并作为postgres数据库中每个studentid的记录插入,每天最多有几千个studentid
我正在考虑创建一个基于java的kafka消费者应用程序来读取和处理来自kafka主题的消息
对于这个用例,我应该考虑使用kafka或基于java的kafka消费者的spark结构化流媒体吗

1sbrub3j

1sbrub3j1#

也许这不是你问题的答案,而是你应该使用现有的工具:apachekafkaconnect来重新设计轮子。
kafka connect是一种用于在apachekafka和其他系统之间以可伸缩和可靠的方式传输数据的工具。一些连接器已经开发出来,可以随时使用。还有一个选择是开发自己的。
对于您的用例(将数据摄取到postgres),已经有了由confluent开发的connector:jdbc connector
有关Kafka连接整体概念的更多详细信息,请参见:
https://kafka.apache.org/documentation/#connect
https://docs.confluent.io/current/connect/index.html

x6yk4ghg

x6yk4ghg2#

从您的用例中可以看出:
您的数据规模很小(只有几千个用户)
你的数据量是一致的
无论如何,您并不是转换/操作/聚合这些数据,而是将其作为kafka的输入读取,并作为输出写入postgres表。
总而言之,我认为spark不会给你带来任何好处,甚至会带来不必要的开销。

相关问题