如何在PySpark中删除某个条件之前的所有行?
第一个
我想到的条件是,删除所有Time
小于LatestRecord == 1
的行,但我很难做到这一点。
到目前为止我的(失败的)尝试:
# transform min date; fails
df = df.withColumn('earliestDate', F.when( F.col('LatestRecord') == 1, F.col('Time').over(Window.partitionBy('ID'))))
# then when earliestDate >= Time, filter
df = df.filter(df.earliestDate >= df.Time)
1条答案
按热度按时间hmmo2u0o1#
设计了一个如下答案,该答案似乎有效/可以过滤:
第一个