hadoop从循环缓冲区溢出记录(Map器)

vptzau2j  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(301)

所以据我所知,这些Map程序有一个循环缓冲区,当它们决定将数据溢出到磁盘时,它们会一直写入该缓冲区,直到达到某个阈值。这个过程可能需要运行一个组合器,并在写入磁盘时压缩数据。
所以,我在想,我们是否可以配置压缩内存中的数据并将其存储在内存中,这样在Map器的末尾,它就不会溢出其循环内存,因此只需要溢出一次到磁盘。这可能吗?和/或有用?
谢谢

fae0ux8s

fae0ux8s1#

是的,这是可能的,也是一个有用的优化。它不能很好地与组合器一起工作,因为您需要在写入之前再次解压缩缓冲区,因此您需要注意,如果定义了组合器,您将返回到旧的行为。

相关问题