我们正在寻找一种可行的方法,通过openshift(基于docker)来提供hadoop生态系统集群。我们希望使用hadoop生态系统的服务来构建集群,即hdfs、yarn、spark、hive、hbase、zookeeper等。
我的团队一直在使用hortonworks hdp作为内部硬件,但现在将切换到基于openshift的基础设施。hortonworkscloudbreak似乎不适合基于openshift的基础设施。我发现这篇文章描述了如何将yarn集成到openshift中,但似乎没有更多的信息可用。
在openshift上配置hadoop生态系统集群最简单的方法是什么?手动添加所有服务感觉容易出错,而且很难管理。我偶然发现了这些独立服务的docker映像,但它无法与hortonworks hdp这样的平台提供的自动资源调配相比。感谢您的指导。
1条答案
按热度按时间mrfwxfqh1#
如果在openshift中安装openstack,sahara允许提供openstack hadoop集群
另外,cloudbreak是hortonwork提供基于容器的云部署的工具
两者都提供ambari,允许您使用与hdp相同的集群管理接口。
fwiw,我个人没有找到把hadoop放在容器中的理由。您的数据节点被锁定到特定磁盘。在一台主机上运行几个较小的ResourceManager没有任何改进。另外,对于Yarn,你要在容器中运行容器。对于namenode,必须有一个复制的fsimage+editlog,因为容器可以放在任何系统上