有人说,当我们希望在参考文献中进行统计时,map reduce可以比传统方法做得更好,因为传统方法涉及大量的内存/磁盘开关。我不太明白为什么传统的方法不好。
假设我只在一台机器上运行map reduce(没有集群),它是否仍然比传统方法更好地解决了一些问题?
或者换言之,从算法的Angular 来看,“map-reduce”的算法范式本身在解决问题上是否有一些优势?
谢谢。
有人说,当我们希望在参考文献中进行统计时,map reduce可以比传统方法做得更好,因为传统方法涉及大量的内存/磁盘开关。我不太明白为什么传统的方法不好。
假设我只在一台机器上运行map reduce(没有集群),它是否仍然比传统方法更好地解决了一些问题?
或者换言之,从算法的Angular 来看,“map-reduce”的算法范式本身在解决问题上是否有一些优势?
谢谢。
1条答案
按热度按时间qybjjes11#
m/r最多允许重新应用与高级stats包相同的算法。但更典型的是,在所使用的算法中做出了一些牺牲——允许以分布式方式运行。map/reduce在交叉折叠采样(或任何其他采样方法)期间提供更均匀的随机分布方面没有“魔力”。
对于一个适合内存的小数据集,m/r通常比传统的包更糟糕——这是由于算法在可伸缩性方面的折衷。当使用禁止在一台机器上完全采样的大型数据集时,您开始看到m/r的优势。使用r/matlab/sas通常需要下采样,而且可能需要按数量级或数量级进行下采样。