使用pyspark内核模式从sagemaker读取csv.gz文件

zlhcx6iw  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(617)

我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式阅读。
当内核是conda-python3(在sagemaker中)时,我可以使用pandas读取相同的文件
我尝试的是:

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')

错误消息:

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:

如果我遗漏了什么,请告诉我

oxosxuxt

oxosxuxt1#

遇到错误:调用104.csv时出错:java.io.ioexception:com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.amazon3exception:拒绝访问(服务:amazon s3;状态代码:403;错误代码:accessdenied;请求id:7ff77313;s3扩展请求id:
s3还有其他hadoop连接器。只有s3a是由hadoop项目本身主动维护的。apache的hadoop的原始s3://客户端。这不再包含在hadoop中。apache的hadoop的s3n:文件系统客户端。此连接器不再可用:用户必须迁移到较新的s3a。
我附上一份文件供你参考
pyspark根据提供的文档自动读取gz文件。单击文档的spark编程指南。

file1 =  's3://testdata/output1.csv.gz'
rdd = sc.textFile(file1)
rdd.take(10)

在Dataframe中加载文件

df = spark.read.csv(file1)

相关问题