无论如何,MapReduce框架中的节点之间有大量的文件传输。那么分布式缓存的使用如何提高性能呢。
c86crjj01#
distributedcache是MapReduce框架提供的一种工具,用于缓存应用程序所需的文件。一旦为作业缓存了一个文件,hadoop框架将使它在运行map/reduce任务的每个数据节点(在文件系统中,而不是在内存中)上都可用。文件通过网络传输,通常通过hdfs。它不会对网络造成比使用hdfs处理任何非数据本地任务更大的压力。
tct7dpnv2#
当程序运行时,没有太多的文件传输。其思想是尽量减少网络数据传输。这就是为什么计算要接近数据。分布式缓存是所有map或reduce任务所需的数据,与普通数据不同,普通数据只需要部分数据(任务分割)。这就是为什么它被分发到所有运行任务的节点。
2条答案
按热度按时间c86crjj01#
distributedcache是MapReduce框架提供的一种工具,用于缓存应用程序所需的文件。一旦为作业缓存了一个文件,hadoop框架将使它在运行map/reduce任务的每个数据节点(在文件系统中,而不是在内存中)上都可用。文件通过网络传输,通常通过hdfs。它不会对网络造成比使用hdfs处理任何非数据本地任务更大的压力。
tct7dpnv2#
当程序运行时,没有太多的文件传输。其思想是尽量减少网络数据传输。这就是为什么计算要接近数据。
分布式缓存是所有map或reduce任务所需的数据,与普通数据不同,普通数据只需要部分数据(任务分割)。这就是为什么它被分发到所有运行任务的节点。