这个问题在这里已经有答案了:
python spark使用dataframe按组累计求和(2个答案)
两个月前关门了。
如果列 A
如以下示例所示,我希望 B
其中每个记录是a中当前记录和b中以前记录的总和:
+-------+
| A | B |
+-------+
| 0 | 0 |
| 0 | 0 |
| 1 | 1 |
| 0 | 1 |
| 1 | 2 |
| 1 | 3 |
| 0 | 3 |
| 0 | 3 |
所以在某种程度上,我会有兴趣考虑到我的操作以前的记录。我知道 F.lag
但我不知道它是怎么工作的。你对如何完成这个手术有什么想法吗?
如果这个想法能用更好的方式表达,我愿意重新措辞。
1条答案
按热度按时间toe950271#
你好像在做a的滚动求和。你可以在窗口上求和。
但是您需要一个列来排序,否则“previousrecord”没有很好的定义,因为sparkDataframe是无序的。