如何使用具有不同列号的两个Dataframe的并集

dwthyt8l  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(443)

我有两个Dataframe:
df1由col1到col7的列组成
df2,由col1到col9的列组成
我需要执行这两个Dataframe的并集,但是由于两个额外的列,它失败了。
你知道还有什么功能可以用吗?

jutyujz0

jutyujz01#

将两列添加到 df2 然后继续工会。
导入-

from pyspark.sql.functions import lit

如果 col8 以及 col9 那么数字是什么呢-

new_df = df2.withColumn("col8", lit(float('nan'))).withColumn("col9", lit(float('nan')))

或者如果col8和col9是字符串,那么-

new_df = df2.withColumn("col8", lit("")).withColumn("col9", lit(""))

现在将新的df与df1合并。

相关问题