在logstash和spark流媒体之间使用ApacheKafka,以便将日志数据获取到我的业务逻辑(在spark中定义)中,对吗?

x4shl7ld  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(235)

我正在使用logstash将我们的日志数据发送到aws中的elasticsearch服务。现在我在星火流中定义了一些业务逻辑,我想实时地应用到日志数据,所以我想在中间使用Amazon SQL或ApacheKafka。
在这种情况下使用Kafka是正确的吗?
谢谢您。

5f0d552i

5f0d552i1#

答案取决于您是否愿意将您的解决方案与amazon产品结合起来?但Kafka很适合这种用法。
实际上,Kafka现在被用来代替redis进入elk堆栈。此外,spark streaming强烈依赖于kafka,以便在出现故障时能够重播消息。
这取决于您的业务逻辑,但如果您在插入elasticsearch之前只使用spark流来过滤和转换数据,那么您应该看看kafkastreams。
kafkastreams提供了一个优雅的dsl(à la spark)操作kafka消息(转换、过滤器、聚合),而无需部署主/从节点。

相关问题