sparksql:如何从时间窗口为不同的值选择聚合,然后透视

fivyi3re  于 2021-06-09  发布在  Cassandra
关注(0)|答案(0)|浏览(427)

嗨,对datastax analytics/spark完全陌生,一直在尝试通过sparksql做一些甚至不可能的事情。寻找一些指导。这与datastax enterprise(dse)6.7和apachespark 2.2.3.9有关
我在cassandra(dse)中有一个巨大的数据集,现在我正在使用alwaysonsql(以及spark)对dse分析进行分层,以便尝试执行一些抽取。
我有一列包含不同度量的名称(可以随时间变化;i、 e.我并不总是知道可以添加哪些度量)。大致如下:

作为第一个过程,我想做的是选择某种形式的聚合区间(平均值、第一个等)。在这里的示例中,我想为每个小时窗口选择第一个度量(时间、值对)。所以类似于“window(time,1小时)”的值。
这看起来像这样:

…然后,我想转到一个“多元”表,其中每个度量值都成为自己的列。

看起来pivot在sparksql中是不可能的,所以我不确定这是否可能。任何关于这方面的指导/提示(以及我能做的事情)都将不胜感激。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题