我有一个整数列,实际上是一个日期。像这样20170101 20170103 20170102。。。。。20200101每个分区大约有1000万行。如何在pyspark中使用此字段作为分区列来读取表?
omtl5h9j1#
运行spark sql-
spark.sql("select * from table where intPartitionColumn=20200101")
这将把分区过滤器推到源到只读目录 intPartitionColumn=20200101 .你也可以查看实际计划( PartitionFilters & PushedFilters )验证相同的
intPartitionColumn=20200101
PartitionFilters
PushedFilters
1条答案
按热度按时间omtl5h9j1#
运行spark sql-
这将把分区过滤器推到源到只读目录
intPartitionColumn=20200101
.你也可以查看实际计划(
PartitionFilters
&PushedFilters
)验证相同的