kafka到elasticsearch,带logstash的hdfs或kafka流/连接

kse8i1jr  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(452)

我使用kafka进行消息队列/处理。我的问题是关于性能/最佳实践。我会做我自己的性能测试,但也许有人已经有了结果/经验。
数据是kafka(0.10)主题中的原始数据,我想将其结构化传输到es和hdfs。
现在我看到两种可能性:
logstash(kafka输入插件、grok过滤器(解析)、es/webhdfs输出插件)
kafka流(解析)、kafka连接(es接收器、hdfs接收器)
如果没有任何测试,我会说第二种选择更好/更干净,更可靠?

r8uurelv

r8uurelv1#

将数据放入elasticsearch的“最佳实践”日志。然而,webhdfs不会有javaapi的原始性能,javaapi是kafkaconnect插件的一部分。
grok可以在kafka streams进程中完成,因此您的解析可以在任意位置完成。
如果你是弹性订阅,那么他们想出售logstash。合流想出售Kafka溪流+Kafka连接。
avro似乎是数据传输的最佳媒介,而模式注册表是一种流行的方法。iiuc,logstash不能很好地与模式注册表或avro一起工作,并且更喜欢json。
在hadoop环境中,我将提供apachenifi或streamset的中间选项。
最后,这实际上取决于您的优先级,以及您(和您的团队)支持这些工具的能力。

相关问题