很多例子都建议阅读 spark.read("path/partition=value/*") 但是如何从路径定义列呢?例如,我想从 path/2019/12/31/* 并获取列 year , month , day 从路径而不是数据本身派生的。如何使用Pypark?
spark.read("path/partition=value/*")
path/2019/12/31/*
year
month
day
roejwanj1#
你的问题是: how to define a column from path? 取决于文件格式。例如,开 parquet 此信息存储在文件路径中。如果Dataframe按分区存储为带有分区列的Parquet表 year, month, day 那就好像
how to define a column from path?
parquet
year, month, day
/yourParquetLocation/year=2019/month=12/day=31
所以这就行了
spark.read.parquet("/yourParquetLocation/year=2019/month=12/day=31")
1条答案
按热度按时间roejwanj1#
你的问题是:
how to define a column from path?
取决于文件格式。例如,开parquet
此信息存储在文件路径中。如果Dataframe按分区存储为带有分区列的Parquet表
year, month, day
那就好像所以这就行了