apachespark使用s3a从s3对象存储分区下载csv

rwqw0loc  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

我想下载一个文件,已保存到s3使用分区上传。我试图补充 * 在我的地址的结尾,但看起来这种格式是无效的。我的代码如下:

df= spark.read.csv('s3a://bucket-name/file.csv/*')
                         , header='true'
                         , inferSchema ='true'
                        )

这些文件存储在以下位置:

file.csv/part1.csv
file.csv/part2.csv

我想知道是否 * 是否支持。如果没有,还有什么选择呢?

vh0rcniy

vh0rcniy1#

您可以尝试放弃下面的目录位置,而不是指定“*”字符,

val df=spark.read
  .format("org.apache.spark.csv")
  .option("header", true)
  .option("inferSchema", true) 
  .csv("s3a://bucket-name/file.csv/")

相关问题