aws emr-从s3到核心和任务节点的数据流

ngynwnxp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(270)

有人能给我指出一个url,它解释了在aws emr上执行的作业中,数据是如何从s3到内存,从hdfs到磁盘空间的?我理解核心节点和任务节点所扮演的角色,但不清楚数据将如何流动。例如;如果我连接两个数据位于s3的配置单元中的表。数据首先进入hdfs,然后进入内存,反之亦然,任务节点上的磁盘空间何时被使用?数据如何从主节点或核心节点流向任务节点?
我问这个问题的原因是,有时我的作业失败,并显示消息“datanodes are bad”,主要是由于hdfs已满,或者节点变得不健康,因为磁盘空间已满。
所以我想弄清楚每个组件所扮演的角色。当集群在prem上时,我从来没有遇到过这样的问题,所以现在我需要更好地配置我的aws集群。
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题