python spark使用dataframe按组累积和

nr9pn0ug 于 2021-07-14 发布在 Spark

关注(0)|答案(2)|浏览(451)

如何使用
DataFrame abstraction ; 而且在 PySpark ?
数据集示例如下：

df = sqlContext.createDataFrame( [(1,2,"a"),(3,2,"a"),(1,3,"b"),(2,2,"a"),(2,3,"b")], 
                                 ["time", "value", "class"] )

+----+-----+-----+
|time|value|class|
+----+-----+-----+
|   1|    2|    a|
|   3|    2|    a|
|   1|    3|    b|
|   2|    2|    a|
|   2|    3|    b|
+----+-----+-----+

我想添加一个 value 对于每个 class 分组（有序） time 变量。

apache-spark pyspark spark-dataframe

来源：https://stackoverflow.com/questions/67095244/how-to-use-window-functions-to-find-accumulated-sum-in-different-time-parametriz

2条答案

按热度按时间

eni9jsuy1#

这可以使用窗口函数和窗口范围内的window.unboundpreceding值的组合来完成，如下所示：

from pyspark.sql import Window
from pyspark.sql import functions as F

windowval = (Window.partitionBy('class').orderBy('time')
             .rangeBetween(Window.unboundedPreceding, 0))
df_w_cumsum = df.withColumn('cum_sum', F.sum('value').over(windowval))
df_w_cumsum.show()

+----+-----+-----+-------+
|time|value|class|cum_sum|
+----+-----+-----+-------+
|   1|    3|    b|      3|
|   2|    3|    b|      6|
|   1|    2|    a|      2|
|   2|    2|    a|      4|
|   3|    2|    a|      6|
+----+-----+-----+-------+

赞(0）回复(0）举报 2021-07-14

myss37ts2#

我试过这种方法，它对我有效。

from pyspark.sql import Window

from pyspark.sql import functions as f

import sys

cum_sum = DF.withColumn('cumsum', f.sum('value').over(Window.partitionBy('class').orderBy('time').rowsBetween(-sys.maxsize, 0)))
cum_sum.show()

赞(0）回复(0）举报 2021-07-14

我来回答

python spark使用dataframe按组累积和

2条答案

相关问题

热门标签

最新问答