当数据驻留在s3中时,aws glue会将代码移动到数据中吗?

yiytaume  于 2021-07-09  发布在  Spark
关注(0)|答案(0)|浏览(136)

据我所知,将代码移到数据中(而不是更传统的将数据移到代码中)是spark和大数据处理的核心理念,因此这对于海量数据集来说是一种更好的方法(这样网络传输就不会成为瓶颈)。
然而,当数据源是s3时,像aws glue或自我管理的spark cluster之类的东西是如何实现这一点的呢。至少,spark集群至少需要从s3传输一次完整的数据集,此时它可以开始利用本地资源并利用数据本地性进行后续计算。除非aws有某种方法可以运行具有良好磁盘位置的粘附任务到s3对象。
我错过了什么?谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题