为什么spark shuffle spill(内存)比shuffle read size大得多?什么是洗牌溢出(磁盘)?

nhhxz33t  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(418)

在spark中,Map任务将输出保存在本地磁盘的文件中(单个排序和合并的数据文件+索引/Map任务)。这个过程称为shufflewrite。
在reduce阶段,使用外部shuffle服务(如果启用)读取map输出文件,而reading data reduce任务应用tim sort。
但是为什么无序溢出(内存)要比读取的数据总量大得多呢?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题