Kafka查询流

ebdffaop  于 2021-06-06  发布在  Kafka
关注(0)|答案(1)|浏览(224)

我有一个业务要求,我需要有12小时的窗口和一个需要查询流数据。12小时内的音量约为100米。我还需要保持所有事件的顺序。我使用streamsapi构建了一个系统来实现这一点。音量似乎不是问题。真正的问题是,企业希望搜索事件和国有商店,几乎每个国有商店。搜索不是基于关键字,而是基于值中的某些字段。
我尝试了ksql服务器,并尝试运行一个包含2500万条记录的数据集的简单查询,在8小时的时间窗口内运行查询几乎需要240秒才能完成搜索(现在我使用的是单个节点和单个分区。)
我考虑的另一种方法是将ElasticSearch连接到流和状态存储,然后对它们运行查询,但我不确定存储每个状态存储的数据是否是一个好的解决方案。
我只想从社区得到关于什么是最好的方法来查询具有这种容量和低响应时间要求的流的意见。
我对Kafka还很陌生,希望能得到建议和指导。

n3h0vuf2

n3h0vuf21#

kafka本身并没有针对索引查询进行优化,甚至任何不涉及从偏移量开始并在日志中向前读取的查询。查询数据的最佳方法是将数据放入符合查询要求的系统中。
kafka streams确实支持交互式查询,但是,如果像您所说的那样,您需要在字段而不是键上对数据进行索引,那么您最好编写一个支持辅助索引的系统。

相关问题