我有一个按年、月、日和小时划分的Parquet数据集。它的储存方式 dataset/2020/01/01/00/
对应于 dataset/{year}/{month}/{day}/{hour}/
. 分区的列名不在文件路径中,就像 dataset/year=2020/month=01/day=01/hour=00/
.
有没有什么方法可以读取这个数据集,并将年、月、日和小时值作为单独的列包含,或者更好地,作为单个时间戳列包含?
目前,我正试图逐小时遍历所有分区,读取该分区,用tmestamp添加一列,然后创建所有这些分区的并集。显然,逐个迭代每个分区是非常低效的,特别是因为有几年的数据。
暂无答案!
目前还没有任何答案,快来回答吧!