如何使用pyspark对sql server表进行分区,其中分区列是整数,但是日期格式(20170101到20200306)?

hzbexzde  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(434)

我有一个整数列,实际上是一个日期。
像这样20170101 20170103 20170102。。。。。
20200101
每个分区大约有1000万行。
如何在pyspark中使用此字段作为分区列来读取表?

omtl5h9j

omtl5h9j1#

运行spark sql-

spark.sql("select * from table where intPartitionColumn=20200101")

这将把分区过滤器推到源到只读目录 intPartitionColumn=20200101 .
你也可以查看实际计划( PartitionFilters & PushedFilters )验证相同的

相关问题