提取rdd中列表的元素

yhuiod9q 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(633)

我想要达到的目标

我在和spark和scala合作。我有两对RDD。

rdd1 : RDD[(String, List[String])]
rdd2 : RDD[(String, List[String])]

两个RDD在其第一个值上联接。

val joinedRdd = rdd1.join(rdd2)

所以产生的rdd是 RDD[(String, (List[String], List[String]))] . 我想Map这个rdd并提取两个列表的元素，这样得到的rdd就只包含两个列表的这些元素。

示例

rdd1 (id, List(a, b))
rdd2 (id, List(d, e, f))
wantedResult (a, b, d, e, f)

天真的方法

我天真的方法是直接用 (i) ，如下所示：

val rdd = rdd1.join(rdd2)
    .map({ case (id, lists) => 
        (lists._1(0), lists._1(1), lists._2(0), lists._2(2), lists._2(3)) })

/* results in RDD[(String, String, String, String, String)] */

有没有一种方法可以获取每个列表中的元素，而不单独处理每个元素？类似于 lists._1.extractAll ". 有没有办法使用 flatMap 去实现我想要实现的目标？

scala apache-spark

来源：https://stackoverflow.com/questions/40133201/extract-elements-of-lists-in-an-rdd

1条答案

按热度按时间

mklgxw1f1#

您可以简单地用 ++ 操作员：

val res: RDD[List[String]] = rdd1.join(rdd2)
  .map { case (_, (list1, list2)) => list1 ++ list2 }

可能是一个更好的方法，可以避免携带 List[String] 这可能是非常大的，将rdd分解成更小的（键值）对，连接它们，然后执行 groupByKey :

val flatten1: RDD[(String, String)] = rdd1.flatMapValues(identity)
val flatten2: RDD[(String, String)] = rdd2.flatMapValues(identity)
val res: RDD[Iterable[String]] = (flatten1 ++ flatten2).groupByKey.values

赞(0）回复(0）举报 2021-05-27

我来回答

提取rdd中列表的元素

我想要达到的目标

示例

天真的方法

1条答案

相关问题

热门标签

最新问答