使用pyspark内核模式从sagemaker读取csv.gz文件

zlhcx6iw 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(617)

我正在尝试读取pyspark中的压缩csv文件。但我无法在sagemaker中以pyspark内核模式阅读。
当内核是conda-python3（在sagemaker中）时，我可以使用pandas读取相同的文件
我尝试的是：

file1 =  's3://testdata/output1.csv.gz'
file1_df = spark.read.csv(file1, sep='\t')

错误消息：

An error was encountered:
An error occurred while calling 104.csv.
: java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: 7FF77313; S3 Extended Request ID:

如果我遗漏了什么，请告诉我

python apache-spark pyspark amazon-s3 amazon-sagemaker

来源：https://stackoverflow.com/questions/64238362/reading-a-csv-gz-file-from-sagemaker-using-pyspark-kernel-mode

1条答案

按热度按时间

oxosxuxt1#

遇到错误：调用104.csv时出错：java.io.ioexception:com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.amazon3exception:拒绝访问（服务：amazon s3；状态代码：403；错误代码：accessdenied；请求id:7ff77313；s3扩展请求id:
s3还有其他hadoop连接器。只有s3a是由hadoop项目本身主动维护的。apache的hadoop的原始s3://客户端。这不再包含在hadoop中。apache的hadoop的s3n：文件系统客户端。此连接器不再可用：用户必须迁移到较新的s3a。
我附上一份文件供你参考
pyspark根据提供的文档自动读取gz文件。单击文档的spark编程指南。

file1 =  's3://testdata/output1.csv.gz'
rdd = sc.textFile(file1)
rdd.take(10)

在Dataframe中加载文件

df = spark.read.csv(file1)

赞(0）回复(0）举报 2021-05-25

我来回答

使用pyspark内核模式从sagemaker读取csv.gz文件

1条答案

相关问题

热门标签

最新问答