我想在Pyspark上对GroupBy进行排名,我可以在panda上进行,但我需要在PySpark上进行
这是我的意见
id year month date hour minute
54807 2021 12 31 6 29
54807 2021 12 31 6 31
54807 2021 12 31 7 15
54807 2021 12 31 7 30
这是Pandas代码
df["rank"] = df.groupby(["id", "hour"])["minute"].rank()
这是我的输出
id year month date hour minute rank
54807 2021 12 31 6 29 1.0
54807 2021 12 31 6 31 2.0
54807 2021 12 31 7 15 1.0
54807 2021 12 31 7 30 2.0
1条答案
按热度按时间0tdrvxhp1#
您可以使用排序窗口函数-
rank
,dense_rank
,row_number
。下面是一个使用
rank
窗口函数示例。