pyspark:如何按日期过滤并读取按日期分区的Parquet文件

kq0g1dla  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(296)

我有一个巨大的分区Parquet地板文件数据集,存储在aws s3中 data-store/year=<>/month=<>/day=<>/hour=<>/ 文件夹格式。例如 data-store/year=2020/month=06/day=01/hour=05 .
我只想读取特定日期范围内的文件,例如 2020/06/01 to 2020/08/30 或者像所有日期大于等于 2020/06/01 .
如何有效地执行此操作,以便仅将所需的数据加载到spark存储器。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题