我有以下两个Dataframe:
df1型
uid text frequency
11 a 1
12 a 2
12 b 1
df2型
text
a
b
c
d
我想创建一个如下所示的Dataframe:
输出测向
uid text frequency
11 a 1
11 b 0
11 c 0
11 d 0
12 a 2
12 b 1
12 c 0
12 d 0
我一直在使用spark sql编写这样的连接:
sqlContext.sql("Select uid,df2.text,frequency from df1 right outer join df2 on df1.text= df2.text")
它不会返回正确的结果。
有什么建议吗?
1条答案
按热度按时间myzjeezk1#
你得这样做
大致相当于以下sql: