Pyspark AND/ALSO分区列查询

vlf7wbxs 于 2022-12-27 发布在 Apache

关注(0)|答案(1)|浏览(127)

如何在pyspark中执行AND/ALSO查询？我希望两个条件都满足才能过滤结果。
原始 Dataframe ：

df.count()
4105

第一个条件未找到任何记录：

df.filter((df.created_date != 'add')).count()
4105

因此，我希望这里的AND子句返回4105，但是它继续过滤df.lastUpdatedDate：

df.filter((df.created_date != 'add') & (df.lastUpdatedDate != '2022-12-21')).count()
3861

对我来说，3861是OR子句的结果，我该如何解决这个问题？lastUpdatedDate是一个基于.explain（）的分区过滤器，所以这可能与这些结果有关？
...分区筛选器：[不为空（最后更新日期#26），NOT（最后更新日期#26 = 2022年12月21日）]，推送过滤器：[不为空（创建日期），不等于（创建日期，添加））]，读取架构...

apache-spark

来源：https://stackoverflow.com/questions/74891930/pyspark-and-also-partition-column-query

1条答案

按热度按时间

b4lqfgs41#

根据我们在评论中的对话-您的要求是过滤掉（df. created_date!='add'）&（df. lastUpdatedDate!='2022 - 12 - 21'）
您的困惑似乎在于方法的名称，即filter，而应考虑它的位置
Where或Filter by definition的工作原理与SQL Where子句相同，即保留表达式返回true的行，并丢弃其余行。
例如，考虑一个 Dataframe

+---+-----+-------+
| id| Name|Subject|
+---+-----+-------+
|  1|  Sam|History|
|  2|  Amy|History|
|  3|Harry|  Maths|
|  4| Jake|Physics|
+---+-----+-------+

下面的过滤器将返回一个新的Dataframe，其中仅包含主题为历史记录的行，即表达式返回true的行（即过滤掉false的行）

rightDF.filter(rightDF.col("Subject").equalTo("History")).show();

或

rightDF.where(rightDF.col("Subject").equalTo("History")).show();

输出：

+---+----+-------+
| id|Name|Subject|
+---+----+-------+
|  1| Sam|History|
|  2| Amy|History|
+---+----+-------+

因此，在您的情况下，您可能希望否定语句以获得所需的结果。
即使用等于代替不等于

df.filter((df.created_date == 'add') & (df.lastUpdatedDate == '2022-12-21')).count()

这意味着保留两个语句都为True的行，并过滤掉其中任何一个为False的行
告诉我这个是否管用

赞(0）回复(0）举报 2022-12-27

我来回答

Pyspark AND/ALSO分区列查询

1条答案

相关问题

热门标签

最新问答