apachespark—在文件路径中没有指定列名的情况下，将分区列读入Dataframe

o8x7eapl 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(201)

我有一个按年、月、日和小时划分的Parquet数据集。它的储存方式 dataset/2020/01/01/00/ 对应于 dataset/{year}/{month}/{day}/{hour}/ . 分区的列名不在文件路径中，就像 dataset/year=2020/month=01/day=01/hour=00/ .
有没有什么方法可以读取这个数据集，并将年、月、日和小时值作为单独的列包含，或者更好地，作为单个时间戳列包含？
目前，我正试图逐小时遍历所有分区，读取该分区，用tmestamp添加一列，然后创建所有这些分区的并集。显然，逐个迭代每个分区是非常低效的，特别是因为有几年的数据。

apache-spark pyspark partitioning parquet

来源：https://stackoverflow.com/questions/64906485/reading-partitioned-columns-into-the-dataframe-without-column-names-specified-in

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

apachespark—在文件路径中没有指定列名的情况下，将分区列读入Dataframe

暂无答案！

相关问题

热门标签

最新问答