hadoop中的分布式缓存

e5nszbig  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(478)

hadoop中的分布式cahce是什么?
它是如何工作的?

Could some one give me inline description of it with real time example?
ws51t4hk

ws51t4hk1#

分布式缓存可以包含初始化所需的小数据文件或可能需要在集群中所有节点上访问的代码库。比如说,你必须计算一个大文件集中出现的单词数。你已经指示,除了给定文件(ignore.csv也是一个大文件)中的单词外,你必须计算每个单词。
然后您在分布式缓存中读取ignore.csv is setup mapper或reducer的功能取决于您的逻辑,并将其存储在一个数据结构中,您可以方便地访问每个单词(例如hashmap)。
这个文件将在任何机器的mapper和reducer启动之前读取和存储,这个分布式缓存对于集群中运行的所有机器都是相同的。
我希望你现在明白了。如有疑问,请发表意见。

ttcibm8c

ttcibm8c2#

distributedcache是hadoop中不推荐使用的类。这是正确的使用方法
hadoop distributedcache已弃用-首选api是什么?
distributedcache将文件复制到所有从属节点。因此本地运行的mr作业的访问速度更快。缓存不在ram中,它只是所有从节点的本地磁盘卷中的一个文件系统缓存

相关问题