apachespark—在文件路径中没有指定列名的情况下,将分区列读入Dataframe

o8x7eapl  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(201)

我有一个按年、月、日和小时划分的Parquet数据集。它的储存方式 dataset/2020/01/01/00/ 对应于 dataset/{year}/{month}/{day}/{hour}/ . 分区的列名不在文件路径中,就像 dataset/year=2020/month=01/day=01/hour=00/ .
有没有什么方法可以读取这个数据集,并将年、月、日和小时值作为单独的列包含,或者更好地,作为单个时间戳列包含?
目前,我正试图逐小时遍历所有分区,读取该分区,用tmestamp添加一列,然后创建所有这些分区的并集。显然,逐个迭代每个分区是非常低效的,特别是因为有几年的数据。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题