sparkscala中sparkDataframe中两个集合的合并

jvidinwx  于 2021-07-12  发布在  Spark
关注(0)|答案(0)|浏览(473)

我在sparkscala中使用groupby函数在dataframe中创建一个set列。
就像下面。。。

val ERROR_GEN_DF1 = GEN_DF.groupBy("KEY_COL").agg(collect_set("ERROR_DESCRIPTION").alias("ERROR_DESCRIPTION_TEMP_GEN"),collect_set("ERROR_COLUMN").alias("ERROR_COLUMN_TEMP_GEN")).drop("ERROR_DESCRIPTION","ERROR_COLUMN")

val ERROR_PROD_DF1 = ERROR_GEN_DF1.groupBy("KEY_COL2").agg(collect_set("ERROR_DESCRIPTION").alias("ERROR_DESCRIPTION_TEMP_PROD"),collect_set("ERROR_COLUMN").alias("ERROR_COLUMN_TEMP_PROD")).drop("ERROR_DESCRIPTION","ERROR_COLUMN")

我需要创建一个新的dataframe,通过组合上述两组各自的dataframe来创建一个新列。
就像 val New_DF = ERROR_GEN_DF1.withColumn("NewSet",<ERROR_DESCRIPTION_TEMP_PROD + ERROR_DESCRIPTION_TEMP_GEN>) 请建议在sparkDataframe中组合或合并两个集合列的函数
谢谢,纳文

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题