PySpark:如何在特定条件之前过滤掉行

kmynzznz  于 2022-12-11  发布在  Spark
关注(0)|答案(1)|浏览(148)

如何在PySpark中删除某个条件之前的所有行?
第一个
我想到的条件是,删除所有Time小于LatestRecord == 1的行,但我很难做到这一点。
到目前为止我的(失败的)尝试:

# transform min date; fails
df = df.withColumn('earliestDate', F.when( F.col('LatestRecord') == 1, F.col('Time').over(Window.partitionBy('ID'))))

# then when earliestDate >= Time, filter
df = df.filter(df.earliestDate >= df.Time)
hmmo2u0o

hmmo2u0o1#

设计了一个如下答案,该答案似乎有效/可以过滤:
第一个

相关问题