如何将一行与spark数据集中的所有其他行进行比较?

2izufjch  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(403)

我有一个从mysql加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么办法可以实现吗?

pzfprimi

pzfprimi1#

可能您希望通过匹配行字段来连接两个数据集。您可以匹配两个这样的数据集并将它们连接起来
val result=df1.join(df2,(df1(“用户id”)==df2(“用户id”)&&(df1(“会话id”)==df2(“会话id”)&(df1(“日期”)==df2(“日期”))。select(df1(“用户id”)、df1(“会话id”)、df1(“日期”)、df2(“国家”)

相关问题