数据如下所示,我需要一个名为"result_column"的附加列
| 个人标识|第1天|第二天|第3天|第4天|结果列|
| - ------|- ------|- ------|- ------|- ------|- ------|
| 第1页|2022年1月23日|2022年1月22日|无效|2022年1月25日|[第2、1、4天]|
| 第二页|2022年2月15日|2022年2月16日|无效|无效|[d1、d2]|
对不起,如果我的问题框架是不可理解的,但我希望,上面的数据传达我所需要的。
1条答案
按热度按时间icnyk63a1#
在Spark SQL中:
我的方法是将列名和日期压缩在一起,删除空值,先将它们与日期串接,然后排序,去掉日期。
可能有一个更优雅的解决方案,但它看起来像工作