我有两个Dataframe:df1由col1到col7的列组成df2,由col1到col9的列组成我需要执行这两个Dataframe的并集,但是由于两个额外的列,它失败了。你知道还有什么功能可以用吗?
jutyujz01#
将两列添加到 df2 然后继续工会。导入-
df2
from pyspark.sql.functions import lit
如果 col8 以及 col9 那么数字是什么呢-
col8
col9
new_df = df2.withColumn("col8", lit(float('nan'))).withColumn("col9", lit(float('nan')))
或者如果col8和col9是字符串,那么-
new_df = df2.withColumn("col8", lit("")).withColumn("col9", lit(""))
现在将新的df与df1合并。
1条答案
按热度按时间jutyujz01#
将两列添加到
df2
然后继续工会。导入-
如果
col8
以及col9
那么数字是什么呢-或者如果col8和col9是字符串,那么-
现在将新的df与df1合并。