我是Spark SQL和Dataset / Dataframe API的新手。
我的数据集中有两列都有多个值/数组。
我想按位置逐行遍历数组,并为数组中的每组相应位置条目输出一个新行。你可以从下面的两个图表中看到如何。
例如:
输入dataframe / dataset
+---+---------+-----+
| id| le|leloc|
+---+---------+-----+
| 1|[aaa,bbb]|[1,2]|
| 2|[ccc,ddd]|[3,4]|
+---+---------+-----+
预期输出数据集
我需要输出如下,数据从列转换为行:
+---+---------+-----+
| id| le|leloc|
+---+---------+-----+
| 1|aaa |1 |
| 1|bbb |2 |
| 2|ccc |3 |
| 2|ddd |4 |
+---+---------+-----+
1条答案
按热度按时间46qrfjad1#
返回:
您可以重命名cols。每个数组有更多的元素。