kubernetes上的hadoop与标准hadoop

ncgqoxb0  于 2021-06-01  发布在  Hadoop
关注(0)|答案(4)|浏览(1014)

kubernetes上的hadoop和标准hadoop有什么区别?在kubernetes上部署hadoop有什么好处?

bybem2ql

bybem2ql1#

标准的hadoop只是带有map reduce、spark等的hadoop,由hdfs支持
kubernetes上的hadoop只是上面提到的标准hadoop,但是在kubernetes上运行
在k8s上使用hadoop的情况下,您可以获得kubernetes通常比传统基础设施提供的所有好处。
还有一个舵图:
https://github.com/helm/charts/tree/master/stable/hadoop

amrnrhlw

amrnrhlw2#

您可能需要考虑查看这组图表简言之,这是一组用于在k8s集群上启动hadoop服务的helm图表。
有几个亮点:
支持ha namenode
支持kerberos
支持k8s持久卷
支持数据卷

希望这有帮助。干杯

bvpmtnay

bvpmtnay3#

正如人们所说,“唯一的区别是你在Kubernetes/集装箱”。事实上,就实际操作而言,这意味着两件大事:
上面链接的舵图是一个玩具。
它构建香草hadoop(即不是hdp或cdh)
它不起作用
它不起作用
您必须管理自己的卷
如果您运行在公共云上,这不是什么大不了的事,因为您可以动态地获取存储
因此,除非你只是想要一个超轻量的hdfs部署,或者你愿意/愿意构建一个更复杂的k8s hadoop部署的自己的部署,或者你愿意支付一个支持hadoop的第三方kubernetes堆栈(例如robin.io),否则我会说,一般来说,现在在k8s上运行是不值得的。
请注意,如果hadoop供应商制作自己的操作符,这可能会改变。

vh0rcniy

vh0rcniy4#

hadoop:hadoop提供hdfs作为分布式文件系统,其中存储资源集群作为单个文件或文件系统呈现给应用程序堆栈。HDFSAPI用于访问无法存储在单个硬盘上的大型数据集。hadoop包括通过复制的数据可靠性管理,因此应用程序不必担心存储堆栈语义。
总之,hadoop将多个硬盘转换为单个卷。这样可以实现非常大的数据存储。hadoop使用yarn(另一个资源协商器)作为计算节点全局调度器。hadoop生态系统非常庞大,包括spark、zookeeper、hbase、hive和许多其他面向大数据、分析和机器学习的解决方案。
kubernetes:kubernetes是一个容器编排平台。容器取代了虚拟机,因为虚拟机利用hyper-wiser和整个访客操作系统来隔离单个主机操作系统环境中的计算节点。这意味着虚拟机会创建不必要的复制,并且在彼此之上运行多个操作系统会降低效率。这种效率损失在运行100万个vm的云环境中非常明显。容器通过只调用所需的功能而不需要每个容器的整个操作系统映像来解决复制和模拟操作系统级隔离的问题。这是通过linux的etcd功能实现的。kubernetes提供了通过2级隔离管理多个容器的方法。通过包含多个容器的吊舱提供二级隔离。kubernetes还通过容器复制提供负载平衡和故障安全部署。
总之,容器提供操作系统级隔离,使单个操作系统看起来像许多操作系统。这使得资源的有效利用和应用程序的并行运行成为可能。kubernetes允许管理许多容器。通常kubernetes和containers接口云存储平台,比如s3,其中s3是一个对象存储,而不像hadoop分布式文件系统。
hadoop有或没有kubernetes:虽然hadoop和kubernetes从根本上解决了不同的问题,但是kubernetes通过解决应用程序依赖性和部署挑战而获得了容器化的好处,因此受到了欢迎。kubernetes和容器提供了巨大的并行性和可伸缩性。
kubernetes是最近在开源方面取得的进展,尽管google已经使用了很多年,但是hadoop是一个有十年历史的解决方案,缺乏一些现代化。
那么,我们是否需要使用hadoop作为带有容器和kubernete的分布式文件系统呢?它实际上取决于应用程序需求和价值主张需求。从技术上讲,用docker和kubernetes运行hadoop是可行的,但是整个生态系统缺乏平滑的集成。最近的几个开源项目试图解决这个问题,但是如果hadoop是一个未来的解决方案,或者我们需要一个新的/不同的分布式文件系统平台,只有时间会告诉我们。目前我们有云存储平台、kafka、elastic search/logstash等多种解决方案,在特定领域凭借自身优势解决存储可扩展性问题,而hadoop和整个hadoop生态系统仍然是主导的大数据平台。

相关问题