如何使用
DataFrame abstraction
; 而且在 PySpark
?
数据集示例如下:
df = sqlContext.createDataFrame( [(1,2,"a"),(3,2,"a"),(1,3,"b"),(2,2,"a"),(2,3,"b")],
["time", "value", "class"] )
+----+-----+-----+
|time|value|class|
+----+-----+-----+
| 1| 2| a|
| 3| 2| a|
| 1| 3| b|
| 2| 2| a|
| 2| 3| b|
+----+-----+-----+
我想添加一个 value
对于每个 class
分组(有序) time
变量。
2条答案
按热度按时间eni9jsuy1#
这可以使用窗口函数和窗口范围内的window.unboundpreceding值的组合来完成,如下所示:
myss37ts2#
我试过这种方法,它对我有效。