我正在databricks中编写python代码,我正在使用spark2.4.5。
我需要一个有两个参数的自定义项。第一个是dataframe,第二个是skid,在这个dataframe中,我需要散列这个dataframe上的所有列。
我已经写了下面的代码,但我需要知道如何在动态Dataframe中连接所有列?
def xHashDataframe(df,skColumn):
a = df.select(
col(skColumn)
,md5(
concat(
col("column1"), lit("~"),
col("column2"), lit("~"),
...
col("columnN"), lit("~")
)).alias("RowHash")
)
return a
1条答案
按热度按时间13z8s7eq1#
没有必要使用自定义项。concat\u ws应该做到这一点: