pyspark：如何按日期过滤并读取按日期分区的Parquet文件

kq0g1dla 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(296)

我有一个巨大的分区Parquet地板文件数据集，存储在aws s3中 data-store/year=<>/month=<>/day=<>/hour=<>/ 文件夹格式。例如 data-store/year=2020/month=06/day=01/hour=05 .
我只想读取特定日期范围内的文件，例如 2020/06/01 to 2020/08/30 或者像所有日期大于等于 2020/06/01 .
如何有效地执行此操作，以便仅将所需的数据加载到spark存储器。

apache-spark pyspark parquet database-partitioning

来源：https://stackoverflow.com/questions/64907179/pyspark-how-to-filter-by-date-and-read-parquet-files-which-is-partitioned-by-da

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark：如何按日期过滤并读取按日期分区的Parquet文件

暂无答案！

相关问题

热门标签

最新问答