在pysparkDataframe中检索最大值时遇到问题

ibps3vxo  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(363)

在我计算了pysparkDataframe中每行5行内的平均数量之后,我使用了窗口和对一组列的分区

from pyspark.sql import functions as F
prep_df = ...
window = Window.partitionBy([F.col(x) for x in group_list]).rowsBetween(Window.currentRow, Window.currentRow + 4)
consecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window))

我试着对同一组进行分组,并选择平均值的最大值,如下所示:

grouped_consecutive_df = consecutive_df.groupBy(group_column_list).agg(F.max(consecutive_df['aveg']).alias('aveg'))

但是,当我调试时,我发现计算的最大值是错误的。对于特定的示例,我看到检索到的最大值甚至不在“aveg”列中。
我想问一下我是采取了错误的方法还是遗漏了一些琐碎的东西。如有任何意见,我们将不胜感激。

sh7euo9m

sh7euo9m1#

我可以这样解决这个问题:在聚合之前,我将数量平均值的最大值Map到另一个新列,然后选择组中的一行。

相关问题