添加新列，其中包含按行值pyspark排序的列名数组

h9vpoimq 于 2023-01-12 发布在 Spark

关注(0)|答案(1)|浏览(124)

我是Pyspark的新手，我发现很久以前就有人问过这个问题了
给定一个包含几个列的dataFrame，我尝试创建一个新列，其中包含一个数组，该数组中的列名称根据这些列的行值按降序排序。

| a | b | c | newcol|
|---|---|---|-------|
| 1 | 4 | 3 |[b,c,a]|
| 4 | 1 | 3 |[a,c,b]|
---------------------

这是他们针对Scala的解决方案

val df = spark.createDataFrame(Seq((1,4,3), (4,1,3))).toDF("a", "b", "c")

val names=df.schema.fieldNames
val sortNames = udf((v: Seq[Int]) => {v.zip(names).sortBy(_._1).map(_._2)})
df.withColumn("newcol", sortNames(array(names.map(col): _*))).show

我在把这段代码翻译成Python时遇到了麻烦

pyspark

来源：https://stackoverflow.com/questions/75082740/add-new-column-containing-an-array-of-column-names-sorted-by-the-row-wise-values

1条答案

按热度按时间

ffx8fchx1#

这一个应该做到这一点：

from pyspark.sql.functions import udf, array

df = spark.createDataFrame([(1, 4, 3), (4, 1, 3)], "a: int, b: int, c: int")
colNames = df.columns

@udf
def orderByColValue(colValues: list):
    return [x[1] for x in sorted(zip(colValues, colNames), key=lambda x: x[0], reverse=True)]

df.withColumn("ordered_cols", orderByColValue(array(colNames))).show(truncate=False)

+---+---+---+------------+
|a  |b  |c  |ordered_cols|
+---+---+---+------------+
|1  |4  |3  |[b, c, a]   |
|4  |1  |3  |[a, c, b]   |
+---+---+---+------------+

赞(0）回复(0）举报 2023-01-12

我来回答

添加新列，其中包含按行值pyspark排序的列名数组

1条答案

相关问题

热门标签

最新问答