如何将一行与spark数据集中的所有其他行进行比较？

2izufjch 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(403)

我有一个从mysql加载的spark数据集，我想将每一行与数据集中的所有其他行进行比较，并使用获得的结果创建一个新的数据集。有什么办法可以实现吗？

hadoop apache-spark apache-spark-sql bigdata

来源：https://stackoverflow.com/questions/43066580/how-to-compare-a-row-with-all-other-rows-in-spark-dataset

1条答案

按热度按时间

pzfprimi1#

可能您希望通过匹配行字段来连接两个数据集。您可以匹配两个这样的数据集并将它们连接起来
val result=df1.join（df2，（df1（“用户id”）==df2（“用户id”）&&（df1（“会话id”）==df2（“会话id”）&（df1（“日期”）==df2（“日期”））。select（df1（“用户id”）、df1（“会话id”）、df1（“日期”）、df2（“国家”）

赞(0）回复(0）举报 2021-05-29

我来回答

如何将一行与spark数据集中的所有其他行进行比较？

1条答案

相关问题

热门标签

最新问答