我有一个来自Kafka的数据流称之为源流。
我有另一个sparksql查询流,其单个值是sparksql查询以及一个窗口大小。
我希望这些查询应用于sourcestream数据,并将查询结果传递给接收器。
例如,源流
Id type timestamp user amount
------- ------ ---------- ---------- --------
uuid1 A 342342 ME 10.0
uuid2 B 234231 YOU 120.10
uuid3 A 234234 SOMEBODY 23.12
uuid4 A 234233 WHO 243.1
uuid5 C 124555 IT 35.12
...
....
查询流
Id window query
------- ------ ------
uuid13 1 hour select 'uuid13' as u, max(amount) as output from df where type = 'A' group by ..
uuid21 5 minute select 'uuid121' as u, count(1) as output from df where amount > 100 group by ..
uuid321 1 day select 'uuid321' as u, sum(amount) as output from df where amount > 100 group by ..
...
....
查询流中的每个查询都将应用于源流的传入数据,并将输出发送到接收器。
我可以用什么方法来实现它?
暂无答案!
目前还没有任何答案,快来回答吧!