apachespark使用s3a从s3对象存储分区下载csv

rwqw0loc 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(349)

我想下载一个文件，已保存到s3使用分区上传。我试图补充 * 在我的地址的结尾，但看起来这种格式是无效的。我的代码如下：

df= spark.read.csv('s3a://bucket-name/file.csv/*')
                         , header='true'
                         , inferSchema ='true'
                        )

这些文件存储在以下位置：

file.csv/part1.csv
file.csv/part2.csv

我想知道是否 * 是否支持。如果没有，还有什么选择呢？

hadoop apache-spark amazon-s3 ibm-cloud object-storage

来源：https://stackoverflow.com/questions/54427593/partitioned-download-of-a-csv-using-s3a-from-s3-object-storage

1条答案

按热度按时间

vh0rcniy1#

您可以尝试放弃下面的目录位置，而不是指定“*”字符，

val df=spark.read
  .format("org.apache.spark.csv")
  .option("header", true)
  .option("inferSchema", true) 
  .csv("s3a://bucket-name/file.csv/")

赞(0）回复(0）举报 2021-05-27

我来回答

apachespark使用s3a从s3对象存储分区下载csv

1条答案

相关问题

热门标签

最新问答