我有一个巨大的分区Parquet地板文件数据集,存储在aws s3中 data-store/year=<>/month=<>/day=<>/hour=<>/
文件夹格式。例如 data-store/year=2020/month=06/day=01/hour=05
.
我只想读取特定日期范围内的文件,例如 2020/06/01 to 2020/08/30
或者像所有日期大于等于 2020/06/01
.
如何有效地执行此操作,以便仅将所需的数据加载到spark存储器。
我有一个巨大的分区Parquet地板文件数据集,存储在aws s3中 data-store/year=<>/month=<>/day=<>/hour=<>/
文件夹格式。例如 data-store/year=2020/month=06/day=01/hour=05
.
我只想读取特定日期范围内的文件,例如 2020/06/01 to 2020/08/30
或者像所有日期大于等于 2020/06/01
.
如何有效地执行此操作,以便仅将所需的数据加载到spark存储器。
暂无答案!
目前还没有任何答案,快来回答吧!