有没有办法为pyspark中的每一组数据获取最近30天的记录?在本例中,获取(grouping,bucket)分组中最近日期的2条记录。像这样的table
| Grouping | Bucket | Date |
|----------|--------|-----------|
| 1 | 1 | 9-20-2020 |
| 1 | 1 | 9-16-2020 |
| 1 | 1 | 8-14-2020 |
| 1 | 2 | 9-20-2020 |
| 1 | 2 | 9-16-2020 |
| 1 | 2 | 8-14-2020 |
| 2 | 1 | 9-20-2020 |
| 2 | 1 | 9-16-2020 |
| 2 | 1 | 8-14-2020 |
会变成这样:
| Grouping | Bucket | Date |
|----------|--------|-----------|
| 1 | 1 | 9-20-2020 |
| 1 | 1 | 9-16-2020 |
| 1 | 2 | 9-20-2020 |
| 1 | 2 | 9-16-2020 |
| 2 | 1 | 9-20-2020 |
| 2 | 1 | 9-16-2020 |
编辑:我在一次又一次的编辑我的问题,并意识到不做编辑开始是正确的选择
1条答案
按热度按时间fcwjkofz1#
使用一个窗口,在每个窗口中取前两个列:
输出:
编辑:此答案适用于此修订(获取每组最近的n条记录)。