如何在spark中读取分区数据?

piok6c0g  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(395)

很多例子都建议阅读 spark.read("path/partition=value/*") 但是如何从路径定义列呢?
例如,我想从 path/2019/12/31/* 并获取列 year , month , day 从路径而不是数据本身派生的。如何使用Pypark?

roejwanj

roejwanj1#

你的问题是: how to define a column from path? 取决于文件格式。例如,开 parquet 此信息存储在文件路径中。
如果Dataframe按分区存储为带有分区列的Parquet表 year, month, day 那就好像

/yourParquetLocation/year=2019/month=12/day=31

所以这就行了

spark.read.parquet("/yourParquetLocation/year=2019/month=12/day=31")

相关问题