我有一个这样的Dataframe。。。
val new_df =Seq(("a","b"),("b","a"),("a","c")).toDF("col1","col2")
我想创造 col3
“这是字符串串联” col1
“和” col2
". 但是,我希望将“ab”和“ba”的串联处理为相同的,按字母顺序排序,这样它就只有“ab”。
生成的Dataframe如下所示:
val new_df =Seq(("a","b","ab"),("b","a","ab"),("a","c","ac")).toDF("col1","col2","col3")
还有一张前后的照片:
之前:
之后:
谢谢,祝你今天愉快!
2条答案
按热度按时间smdnsysy1#
使用spark sql函数可以利用spark sql优化:
jljoyd4f2#
你可以创建一个
udf
创建排序字符串然后把它用在
withColumn
语句发送要连接的所需列结果