Kafka流的最佳实践

zkure5ic  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(662)

我们有一个用python编写的predict服务来提供机器学习服务,你给它发送一组数据,它会给出异常检测或预测等。
我想用kafka流来处理实时数据。
有两种选择方式:
Kafka流作业只完成 ETL 功能:加载数据,并做简单的转换和保存数据ElasticSearch。然后启动一个定时器,周期性地从es加载数据,并调用predict服务来计算并将结果保存回es。
Kafka说,除了工作之外,其他的事情都是由乔布斯来做的 ETL ,当Kafka流作业完成 ETL 然后将数据发送给预测服务,并将计算结果保存到kafka,消费者将kafka的计算结果转发给es。
我认为第二种方法更具实时性,但我不知道在流式作业中做这么多预测任务是个好主意。
对于这样的应用有什么共同的模式或建议吗?

scyqe7ek

scyqe7ek1#

是的,我也会选择第二种选择。
您可以使用kafka作为ml训练模块和预测模块之间的数据管道。这些模块可以在kafka流中很好地实现。
请看下图:

相关问题