spark writing如何与S3一起工作?

f0ofjuux  于 2023-02-24  发布在  Apache
关注(0)|答案(1)|浏览(140)

我试图理解,spark框架如何与AWS的s3服务交互以写入?
我可以理解的是,S3是AWS的存储服务,它以API(例如s3://s3bucket-path-folder/)的形式公开,我们在Spark代码中使用此API(location of s3 bucket)来写入数据。
由于s3路径是作为一个API工作的,如果我们在spark代码中使用它来写我们的数据,这里我很困惑。spark框架已经有aws api集成(s3 bucket)来写数据了吗?因为我认为,与API的http方法和一些参数交互也是必需的。
有谁能帮我澄清一下这个困惑吗?
谢谢

dwbf0jvd

dwbf0jvd1#

是的,spark具有写入S3的本机集成。您无需执行任何操作即可启用spark与S3的集成。只需一个简单的spark.write.parquet("s3/path/")即可将数据写入S3。

相关问题