如何获取pyspark中最近的n个日期

brccelvz 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(641)

有没有办法为pyspark中的每一组数据获取最近30天的记录？在本例中，获取（grouping，bucket）分组中最近日期的2条记录。像这样的table

| Grouping | Bucket | Date      |
|----------|--------|-----------|
| 1        | 1      | 9-20-2020 |
| 1        | 1      | 9-16-2020 |
| 1        | 1      | 8-14-2020 |
| 1        | 2      | 9-20-2020 |
| 1        | 2      | 9-16-2020 |
| 1        | 2      | 8-14-2020 |
| 2        | 1      | 9-20-2020 |
| 2        | 1      | 9-16-2020 |
| 2        | 1      | 8-14-2020 |

会变成这样：

| Grouping | Bucket | Date      |
|----------|--------|-----------|
| 1        | 1      | 9-20-2020 |
| 1        | 1      | 9-16-2020 |
| 1        | 2      | 9-20-2020 |
| 1        | 2      | 9-16-2020 |
| 2        | 1      | 9-20-2020 |
| 2        | 1      | 9-16-2020 |

编辑：我在一次又一次的编辑我的问题，并意识到不做编辑开始是正确的选择

python apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/64143337/how-to-get-the-n-most-recent-dates-in-pyspark

1条答案

按热度按时间

fcwjkofz1#

使用一个窗口，在每个窗口中取前两个列：

df.withColumn("r", F.rank().over(Window.partitionBy("Grouping", "Bucket") \
                           .orderBy(F.col("Date").desc()))) \
    .filter("r <=2") \
    .drop("r") \
    .show()

输出：

+--------+------+----------+
|Grouping|Bucket|      Date|
+--------+------+----------+
|       1|     1|2020-09-20|
|       1|     1|2020-09-16|
|       1|     2|2020-09-20|
|       1|     2|2020-09-16|
|       2|     1|2020-09-20|
|       2|     1|2020-09-16|
+--------+------+----------+

编辑：此答案适用于此修订（获取每组最近的n条记录）。

赞(0）回复(0）举报 2021-05-24

我来回答

如何获取pyspark中最近的n个日期

1条答案

相关问题

热门标签

最新问答