如何在spark sql或pyspark中将多列数据合并为一列

ut6juiuv  于 2022-12-17  发布在  Spark
关注(0)|答案(1)|浏览(251)

该表包含列cat、ID、V1和V2。
输入
目录号V1 V2
A 1 AA AA
A 1空BB
C 3 AA空
C 3空BB
预期的输出格式。
输出
目录号V
A 1 AA
A 1 AA
A 1 BB
C 3氨基酸
C 3 BB
没有工会就能做到这一点吗?

gudnpqoy

gudnpqoy1#

您可以使用coalesce来实现此目的:

from pyspark.sql.functions import coalesce, col

df.withColumn("V", coalesce(col("V1"), col("V2")))

相关问题