在scala spark中使用full join连接两个 Dataframe

wkyowqbh 于 2023-04-21 发布在 Scala

关注(0)|答案(1)|浏览(280)

我有两个 Dataframe

Dataframe1:
 "a","x"
  1 , 2
  3 , 4
  2 , 5

Dataframe2:
 "a","y"
  1 , 3
  3 , 5
  7 , 6

我想创建一个新的DataFrame，它类似于

"a", "x" , "y"
  1    2     3
  3    4     5
  2    5     null
  7    null  6

我尝试使用joins，但它创建了joined键的两个新列。我应该如何继续？

scala

来源：https://stackoverflow.com/questions/76047098/join-two-dataframes-in-scala-spark-using-full-join

1条答案

按热度按时间

vlf7wbxs1#

你可以使用join并指定你想要基于（“a”column）进行join的列，Spark会在join后自动删除不必要的列

import org.apache.spark.sql.functions._
import org.apache.spark.sql.SparkSession

object test extends App {
  val spark = SparkSession.builder().master("local[*]").getOrCreate()
  import spark.implicits._
  val df1 = Seq((1, 2), (3, 4), (2, 5)).toDF("a", "x")
  val df2 = Seq((1, 3), (3, 5), (7, 6)).toDF("a", "y")

  val resultDF = df1.join(df2, Seq("a"), "outer")
  resultDF.show()
//  +---+----+----+
//  |  a|   x|   y|
//  +---+----+----+
//  |  1|   2|   3|
//  |  3|   4|   5|
//  |  7|null|   6|
//  |  2|   5|null|
//  +---+----+----+

这是Join方法的格式

def join(right: Dataset[_], usingColumns: Seq[String], joinType: String): sql.DataFrame

使用给定的列与另一个DataFrame对等连接。
与其他join函数不同，join列在输出中只出现一次，即类似于SQL的JOIN USING语法。
参数：
right -连接操作的右侧。

usingColumns-要连接的列的名称，该列必须两边都存在。

joinType -要执行的联接的类型。

赞(0）回复(0）举报 2023-04-21

我来回答

在scala spark中使用full join连接两个 Dataframe

1条答案

相关问题

热门标签

最新问答