python自动连接

2izufjch  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(391)

我有以下Dataframe:

df1:
src | dst
 A  |  B
 A  |  C

df2:
src | dst
 B  |  D
 B  |  C
 C  |  D

df3:
src | dst
 D  |  A
 C  |  D

我想加入三个(或n个)Dataframe以获得:

output:
src | dst
 A  |  B
 A  |  C
 B  |  D
 C  |  D
 D  |  A

我尝试了几个连接选项(左半主要),但没有成功。

z4iuyo4d

z4iuyo4d1#

我认为您可能需要“联合所有”Dataframe,然后执行一个

val df4 = df1.union(df2).distinct

    val df5 = df3.union(df4).distinct

df5将是您的最终Dataframe。
让我知道这是否有效。

相关问题