sparksql：如何从时间窗口为不同的值选择聚合，然后透视

fivyi3re 于 2021-06-09 发布在 Cassandra

关注(0)|答案(0)|浏览(427)

嗨，对datastax analytics/spark完全陌生，一直在尝试通过sparksql做一些甚至不可能的事情。寻找一些指导。这与datastax enterprise（dse）6.7和apachespark 2.2.3.9有关
我在cassandra（dse）中有一个巨大的数据集，现在我正在使用alwaysonsql（以及spark）对dse分析进行分层，以便尝试执行一些抽取。
我有一列包含不同度量的名称（可以随时间变化；i、 e.我并不总是知道可以添加哪些度量）。大致如下：

作为第一个过程，我想做的是选择某种形式的聚合区间（平均值、第一个等）。在这里的示例中，我想为每个小时窗口选择第一个度量（时间、值对）。所以类似于“window（time，1小时）”的值。
这看起来像这样：

…然后，我想转到一个“多元”表，其中每个度量值都成为自己的列。

看起来pivot在sparksql中是不可能的，所以我不确定这是否可能。任何关于这方面的指导/提示（以及我能做的事情）都将不胜感激。