嗨,对datastax analytics/spark完全陌生,一直在尝试通过sparksql做一些甚至不可能的事情。寻找一些指导。这与datastax enterprise(dse)6.7和apachespark 2.2.3.9有关
我在cassandra(dse)中有一个巨大的数据集,现在我正在使用alwaysonsql(以及spark)对dse分析进行分层,以便尝试执行一些抽取。
我有一列包含不同度量的名称(可以随时间变化;i、 e.我并不总是知道可以添加哪些度量)。大致如下:
作为第一个过程,我想做的是选择某种形式的聚合区间(平均值、第一个等)。在这里的示例中,我想为每个小时窗口选择第一个度量(时间、值对)。所以类似于“window(time,1小时)”的值。
这看起来像这样:
…然后,我想转到一个“多元”表,其中每个度量值都成为自己的列。
看起来pivot在sparksql中是不可能的,所以我不确定这是否可能。任何关于这方面的指导/提示(以及我能做的事情)都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!