据我所知,将代码移到数据中(而不是更传统的将数据移到代码中)是spark和大数据处理的核心理念,因此这对于海量数据集来说是一种更好的方法(这样网络传输就不会成为瓶颈)。
然而,当数据源是s3时,像aws glue或自我管理的spark cluster之类的东西是如何实现这一点的呢。至少,spark集群至少需要从s3传输一次完整的数据集,此时它可以开始利用本地资源并利用数据本地性进行后续计算。除非aws有某种方法可以运行具有良好磁盘位置的粘附任务到s3对象。
我错过了什么?谢谢!
据我所知,将代码移到数据中(而不是更传统的将数据移到代码中)是spark和大数据处理的核心理念,因此这对于海量数据集来说是一种更好的方法(这样网络传输就不会成为瓶颈)。
然而,当数据源是s3时,像aws glue或自我管理的spark cluster之类的东西是如何实现这一点的呢。至少,spark集群至少需要从s3传输一次完整的数据集,此时它可以开始利用本地资源并利用数据本地性进行后续计算。除非aws有某种方法可以运行具有良好磁盘位置的粘附任务到s3对象。
我错过了什么?谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!