spark流的web日志解析

o0lyfsai  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(362)

我计划创建一个可以实时读取web日志的系统,并使用apachespark来处理它们。我打算用kafka把日志传给spark streaming来聚合统计数据。我不确定我是否应该做一些数据解析(raw到json…),如果是的话,在哪里做比较合适(spark script,kafka,其他地方…),如果有人能指导我,我将不胜感激。对我来说是一种新东西。干杯

x8goxv8g

x8goxv8g1#

apachekafka是一个分布式pub-sub消息传递系统。它不提供任何解析或转换数据的方法,而不是这样。但是,任何Kafka消费者都可以处理、解析或转换发布到Kafka的数据,并将转换后的数据重新发布到另一个主题,或将其存储在数据库或文件系统中。
有很多方法可以使用kafka的数据,其中一种方法就是您建议的,实时流处理器(apacheflume、apachespark、apachestorm等等)。
所以答案是否定的,Kafka没有提供任何解析原始数据的方法。您可以使用spark转换/解析原始数据,但也可以编写自己的客户机,因为有许多kafka客户机端口,或者使用任何其他构建的客户机apacheflume、apachestorm等

相关问题