我有一个非常基本的问题,我正在努力寻找答案。我查阅了文档以了解在map阶段、shuffle阶段和reduce阶段中数据溢出到哪里?就像mapper a有16gb的ram一样,但是如果为mapper分配的内存已经超过,那么数据就会溢出。数据是溢出到hdfs还是溢出到磁盘上的tmp文件夹?在shuffle阶段,数据是否从一个节点流到另一个节点,并存储在hdfs或临时存储位置。我问这些问题的原因是想弄清楚工作完成后是否需要一个清理过程。请帮忙。
dldeef671#
Map器的中间文件(溢出文件)存储在运行Map器的工作节点的本地文件系统中。类似地,从一个节点到另一个节点的数据流存储在运行任务的工作节点的本地文件系统中。此本地文件系统路径由指定 hadoop.tmp.dir 默认情况下为“/tmp”的属性。在作业完成或失败后,本地文件系统上使用的临时位置会被自动清除,您不必执行任何清理过程,它会由框架自动处理。
hadoop.tmp.dir
1条答案
按热度按时间dldeef671#
Map器的中间文件(溢出文件)存储在运行Map器的工作节点的本地文件系统中。类似地,从一个节点到另一个节点的数据流存储在运行任务的工作节点的本地文件系统中。
此本地文件系统路径由指定
hadoop.tmp.dir
默认情况下为“/tmp”的属性。在作业完成或失败后,本地文件系统上使用的临时位置会被自动清除,您不必执行任何清理过程,它会由框架自动处理。