我有一个排序表,看起来如下所示。
| 列1|第2列|
| - -|- -|
| 千元|千元|
| 小行星2600|小行星2600|
| 小行星3600|小行星3600|
| 小行星3600|小行星4050|
| 小行星3600|小行星4500|
我想创建一个标志,使col 1和col 2都小于4000时该标志为true。pyspark_df = pyspark_df.withColumn('flag', when((pyspark_df['col1'] <= 4000) & (pyspark_df['col2'] <= 4000), 1).otherwise(0)
但是,我还希望失败的第一行(在本例中为第4行)也将此标志设置为true。
1条答案
按热度按时间b0zn9rqh1#
您可以创建一个滞后列,然后在两列之间使用按位OR。
输出量