我在sparkscala中使用groupby函数在dataframe中创建一个set列。
就像下面。。。
val ERROR_GEN_DF1 = GEN_DF.groupBy("KEY_COL").agg(collect_set("ERROR_DESCRIPTION").alias("ERROR_DESCRIPTION_TEMP_GEN"),collect_set("ERROR_COLUMN").alias("ERROR_COLUMN_TEMP_GEN")).drop("ERROR_DESCRIPTION","ERROR_COLUMN")
val ERROR_PROD_DF1 = ERROR_GEN_DF1.groupBy("KEY_COL2").agg(collect_set("ERROR_DESCRIPTION").alias("ERROR_DESCRIPTION_TEMP_PROD"),collect_set("ERROR_COLUMN").alias("ERROR_COLUMN_TEMP_PROD")).drop("ERROR_DESCRIPTION","ERROR_COLUMN")
我需要创建一个新的dataframe,通过组合上述两组各自的dataframe来创建一个新列。
就像 val New_DF = ERROR_GEN_DF1.withColumn("NewSet",<ERROR_DESCRIPTION_TEMP_PROD + ERROR_DESCRIPTION_TEMP_GEN>)
请建议在sparkDataframe中组合或合并两个集合列的函数
谢谢,纳文
暂无答案!
目前还没有任何答案,快来回答吧!