为什么我们在hadoop中使用分布式缓存?

u59ebvdq  于 2021-05-30  发布在  Hadoop
关注(0)|答案(2)|浏览(456)

无论如何,MapReduce框架中的节点之间有大量的文件传输。那么分布式缓存的使用如何提高性能呢。

c86crjj0

c86crjj01#

distributedcache是MapReduce框架提供的一种工具,用于缓存应用程序所需的文件。一旦为作业缓存了一个文件,hadoop框架将使它在运行map/reduce任务的每个数据节点(在文件系统中,而不是在内存中)上都可用。文件通过网络传输,通常通过hdfs。它不会对网络造成比使用hdfs处理任何非数据本地任务更大的压力。

tct7dpnv

tct7dpnv2#

当程序运行时,没有太多的文件传输。其思想是尽量减少网络数据传输。这就是为什么计算要接近数据。
分布式缓存是所有map或reduce任务所需的数据,与普通数据不同,普通数据只需要部分数据(任务分割)。这就是为什么它被分发到所有运行任务的节点。

相关问题