输入 Dataframe 如下:
输入数据格式=
+---------------------+
|days (seq[String]) |
+---------------------+
|[sat, sun] |
|[mon, wed] |
|[fri ] |
|[fri, sat] |
|[mon, sun, sat] |
+---------------------+
我希望从days列获取包含所有现有字符串的outputDF
输出数据格式=
+---------------------+----------------------------+
|days (seq[String]) |all days (seq[String]) |
+---------------------+----------------------------+
|[sat, sun] |[sat, sun, mon, wed, fri] |
|[mon, wed] |[sat, sun, mon, wed, fri] |
|[fri] |[sat, sun, mon, wed, fri] |
|[fri, sat] |[sat, sun, mon, wed, fri] |
|[mon, sun, sat] |[sat, sun, mon, wed, fri] |
+---------------------+----------------------------+
如何在Scala/Spark中做到这一点
3条答案
按热度按时间sz81bmfz1#
假设这是我们的输入,名为
dataset
:我们可以得到以下输出:
通过下面的代码:
祝你好运!
qlfbtfca2#
您可以创建另一个包含唯一天数值的数据集,然后将其联接回初始数据集:
nue99wik3#
您可以收集非重复值,然后使用withColumn将其添加
输出为: