当我们将pandas数据框保存为分区的parquet时,文件名会自动生成。
是否可以指定每个分区的输出文件名?
用一个例子
df = pd.DataFrame(data={'year': [2020, 2020, 2021],
'month': [1,12,2],
'day': [1,31,28],
'value': [1000,2000,3000]})
df.to_parquet('./output', partition_cols=['year', 'month'])
output/year=2020/month=1/6f0258e6c48a48dbb56cae0494adf659.parquet
output/year=2020/month=12/cf8a45116d8441668c3a397b816cd5f3.parquet
output/year=2021/month=2/7f9ba3f37cb9417a8689290d3f5f9e6e.parquet
有没有可能得到
output/year=2020/month=1/2020_01.parquet
output/year=2020/month=12/2020_12.parquet
output/year=2021/month=2/2021_02.parquet
谢谢你的时间
1条答案
按热度按时间llycmphe1#
您可以找到一种方法,将
dask
与pandas
一起使用。将数据保存在pandas中,在写入磁盘时,您可以使用dask通过其
name_function
参数来处理分区文件的命名约定: