我试图理解,spark框架如何与AWS的s3服务交互以写入?
我可以理解的是,S3是AWS的存储服务,它以API(例如s3://s3bucket-path-folder/
)的形式公开,我们在Spark代码中使用此API(location of s3 bucket
)来写入数据。
由于s3路径是作为一个API工作的,如果我们在spark代码中使用它来写我们的数据,这里我很困惑。spark框架已经有aws api集成(s3 bucket)来写数据了吗?因为我认为,与API的http方法和一些参数交互也是必需的。
有谁能帮我澄清一下这个困惑吗?
谢谢
1条答案
按热度按时间dwbf0jvd1#
是的,spark具有写入S3的本机集成。您无需执行任何操作即可启用spark与S3的集成。只需一个简单的
spark.write.parquet("s3/path/")
即可将数据写入S3。