如何使用pyspark对sql server表进行分区，其中分区列是整数，但是日期格式(20170101到20200306)？

hzbexzde 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(439)

我有一个整数列，实际上是一个日期。
像这样20170101 20170103 20170102。。。。。
20200101
每个分区大约有1000万行。
如何在pyspark中使用此字段作为分区列来读取表？

apache-spark pyspark apache-spark-sql azure-databricks data-partitioning

来源：https://stackoverflow.com/questions/62592361/how-to-partition-sql-server-table-where-partition-column-is-integer-but-in-date

1条答案

按热度按时间

运行spark sql-

spark.sql("select * from table where intPartitionColumn=20200101")

这将把分区过滤器推到源到只读目录 intPartitionColumn=20200101 .
你也可以查看实际计划( PartitionFilters & PushedFilters )验证相同的

赞(0）回复(0）举报 2021-05-29

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前