多天读取多个通配符文件模式-pyspark

wlsrxk51  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(261)

我有60天的文件,我需要加载和做一些aggs。我可以为给定的一天加载一个模式

df = spark.read.csv("/data/id/date=20201217/20201217_*_a_id_*.gz", sep='\t')

不过,还有其他模式,我想加载以下文件模式的最后60天

20201217/20201217_*_a_id_*.gz
20201217/20201217_*_x_id_*.gz
20201217/20201217_*_m_id_*.gz
20201217/20201217_*_0_image_id_*.gz
20201217/20201217_*_2_image_id_*.gz

我试过了

df = spark.read.csv("/data/id/date=*_{a,x,m,0_image,2_image}_id_*.gz", sep='\t')

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题