hadoop的哪个发行版更好?

yfwxisqw  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(362)

我正在处理海量数据,我的输入数据大约是100GB。我想选择一个hadoop发行版,但我不知道要选择mapr集群还是cloudera集群。我想使用免费版本(maprm3和clouderacdh4使用hadoop0.20)。哪一个更好?我使用哪种配置工作得最好?谢谢。

5q4ezhmt

5q4ezhmt1#

实际上,这个问题的答案是这个世界上最常见的答案,这要看情况而定。这完全取决于你和你的要求。一个人可能会发现一种特定的口味更适合他/她的需要,而你可能会发现同样的口味不太有用。而且这都是个人选择,就像我个人喜欢apache的hadoop一样。一切都很好。只是哪一个适合你的需要。
哪一个更好?这是一个有争议的主题。像这样的问题往往以激烈的争论告终。看这个问题的例子。所以,我不打算列出任何一个的优点。但是这些不同风格的hadoop之间有一定的差异,这可能会在你的思维过程中对你有所帮助。
cdh(apachehadoop)和mapr的主要区别在于mapr使用自己的专有文件系统maprfs而不是hdfs。m3版是免费的,可供无限量生产使用。在社区基础上并通过mapr论坛提供支持。cdh是100%开源的,您可以免费使用cloudera manager的“标准”版本。Apache,是Apache:)。做你想做的事。
mapr最近甚至与canonical合作,后者是ubuntu操作系统的幕后推手,致力于通过其存储库使hadoop成为ubuntu的一个集成部分。合作伙伴宣布,mapr的apachehadoop的m3版本将打包并作为ubuntu操作系统的一个集成部分提供下载(如果您需要更多信息,请参阅本文)。源代码在github上提供。cdh的codebase和apache的相同,有一些自己的补丁。
但是免费版缺少一些好的特性,比如jobtracker ha、namenode ha、镜像、快照等。不过,基于hadoop-2.x的cdh4提供了ha特性。由于它的设计,mapr没有任何spof,就像cdh3(或hadoop-1.x)那样。maprfs将数据存储在卷中,从概念上讲,存储在分布在集群中的一组容器中。每个容器都包含自己的元数据,消除了中心namenode单点故障。尽管如此,api还是与apachehadoop兼容的。mapr设置要求不同于apache/cdh。例如,like mapr要求原始卷可用于安装。一旦有了正确的硬件和操作系统先决条件,安装时间和评估时间应该与apache/cdh的数量级相同。
imho,m3不会给你带来比apache/cdh更大的优势,因为一些吸引人的mapr特性在m3免费版中是不存在的,比如nfs-ha、快照等等。
作为第一个cloudera,在体验和坚实的客户基础方面无疑具有额外的优势。但mapr在对mapreduce和hdfs组件进行重大更改以提高性能方面更具创新性。
过段时间我会再写一些,因为我在打电话,你在等我的答复;)

相关问题