我有一个从mysql加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么办法可以实现吗?
pzfprimi1#
可能您希望通过匹配行字段来连接两个数据集。您可以匹配两个这样的数据集并将它们连接起来val result=df1.join(df2,(df1(“用户id”)==df2(“用户id”)&&(df1(“会话id”)==df2(“会话id”)&(df1(“日期”)==df2(“日期”))。select(df1(“用户id”)、df1(“会话id”)、df1(“日期”)、df2(“国家”)
1条答案
按热度按时间pzfprimi1#
可能您希望通过匹配行字段来连接两个数据集。您可以匹配两个这样的数据集并将它们连接起来
val result=df1.join(df2,(df1(“用户id”)==df2(“用户id”)&&(df1(“会话id”)==df2(“会话id”)&(df1(“日期”)==df2(“日期”))。select(df1(“用户id”)、df1(“会话id”)、df1(“日期”)、df2(“国家”)