这个问题在这里已经有了答案:
如何将具有范围值的列添加到Dataframe(1个答案)
上个月关门了。
pyspark2.4引入了生成整数序列的序列函数。不幸的是,我被PySpark2.3.x困住了。如何生成整数序列?
编辑:
下面是一个玩具的例子,我正在努力实现。
输入(行=年度范围内的科目)
+---------+----------+----------+
| account | min_year | max_year |
+---------+----------+----------+
| A | 2002 | 2004 |
| B | 2008 | 2011 |
| C | 2009 | 2015 |
+---------+----------+----------+
期望输出(范围内每个账户每年一行)
+---------+----------+
| account | year |
+---------+----------+
| A | 2002 |
| A | 2003 |
| A | 2004 |
| B | 2008 |
| B | 2009 |
| B | 2010 |
| B | 2011 |
| C | 2009 |
| C | 2010 |
| C | 2011 |
| C | 2012 |
| C | 2013 |
| C | 2014 |
| C | 2015 |
+---------+----------+
1条答案
按热度按时间68bkxrlz1#
我已经为我的具体案例找到了解决办法。虽然不太漂亮,但很管用。
完整代码:
结果: