如何得到pyspark Dataframe 中相似命名列的平均值？

plupiseo 于 2023-02-21 发布在 Spark

关注(0)|答案(2)|浏览(178)

我有12列数据包含每个客户12个月的余额，如下所示，如何创建一个额外的列与平均12个月的余额（b 0到b11）。
| 顾客|b0|b1|b2|b3|b4|b5|b6|b7|b8|b9|硼10|b11|平均值|
| - ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|
| 客户_1|二十个|三十|零|零|零|零|零|零|零|零|零|零|二十五|
| 客户_2|三个|三个|三个|三个|三个|三个|三个|三个|三个|三个|三个|三个|三个|
| 客户_3|零|零|零|零|零|零|零|零|零|五十|三十|十个|三十|
| 客户_4|零|零|零|零|零|零|零|零|零|零|零|零|零|
我想有一个基于列名的通用代码，谢谢。

pyspark

来源：https://stackoverflow.com/questions/75511225/how-to-get-average-of-similar-named-columns-in-pyspark-dataframe

2条答案

按热度按时间

von4xj4u1#

这是可行的：

df.withColumn("sum", sum(F.coalesce(F.col(col), F.lit(0)) for col in df.schema.names if col!="customer"))\
  .withColumn("count", sum([F.col(col).isNotNull().cast(IntegerType()) for col in df.schema.names if col!="customer"]))\
  .withColumn("avg", F.col("sum") / F.col("count"))\
  .show()

除了for col in df.schema.names if col!="customer"之外，如果还有customer以外的列，也可以使用for col in df.schema.names if "b" in col。可以使用任何条件来选择要平均的列，但基本思想是相同的。
输入：