在scalaDataframe中查找顶级父级

xfb7svmp 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(320)

我需要为spark数据框中的一些数据找到最上面的父id。
我确实有两列，如下所示，分别是object id和parent object id。

对象id 123的父对象id为456，也是父id为789的对象id……以此类推。
要求是为每个对象id找到最顶层的父对象。
预期输出如下所示。

我尝试创建temp表并用while循环重写该表。但这似乎是不正常的工作。
有没有办法达到这个要求？任何线索感谢！
使用下面问题中提供的解决方案进行了尝试，但它持续执行了很长一段时间，好像在一个无限循环中的某个地方！sparkDataframe：查找并设置子级的主根

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/66479476/find-top-parent-in-scala-data-frame

1条答案

按热度按时间

jtoj6r0c1#

如果知道层次结构的“深度”，可以使用 foldLeft 把一系列的 self-join s、如下图所示：

val df = Seq(
  (123, 456), (145, 111), (456, 789), (789, 999), (787, 676)
).toDF("obj", "obj_parent")

val depth = 3

(1 to depth).foldLeft(df){ (accDF, _) =>
  accDF.as("df1").
    join(df.as("df2"), $"df1.obj_parent" === $"df2.obj", "left_outer").
    select($"df1.obj".as("obj"), coalesce($"df2.obj_parent", $"df1.obj_parent").as("obj_parent"))
}.show
// +---+----------+
// |obj|obj_parent|
// +---+----------+
// |123|       999|
// |145|       111|
// |456|       999|
// |789|       999|
// |787|       676|
// +---+----------+

请注意，即使提供的“depth”值大于实际的层次深度，它也可以正常工作，尽管在这种情况下，一些后续转换是多余的。

赞(0）回复(0）举报 2021-07-12

我来回答

在scalaDataframe中查找顶级父级

1条答案

相关问题

热门标签

最新问答