在spark中,Map任务将输出保存在本地磁盘的文件中(单个排序和合并的数据文件+索引/Map任务)。这个过程称为shufflewrite。
在reduce阶段,使用外部shuffle服务(如果启用)读取map输出文件,而reading data reduce任务应用tim sort。
但是为什么无序溢出(内存)要比读取的数据总量大得多呢?
在spark中,Map任务将输出保存在本地磁盘的文件中(单个排序和合并的数据文件+索引/Map任务)。这个过程称为shufflewrite。
在reduce阶段,使用外部shuffle服务(如果启用)读取map输出文件,而reading data reduce任务应用tim sort。
但是为什么无序溢出(内存)要比读取的数据总量大得多呢?
暂无答案!
目前还没有任何答案,快来回答吧!