apache-yarn可以在没有hdfs的情况下使用吗?

wecizke3  于 2021-06-02  发布在  Hadoop
关注(0)|答案(5)|浏览(633)

我想使用apacheyarn作为集群和资源管理器来运行一个框架,在这个框架中,资源将在同一框架的不同任务之间共享。我想使用我自己的分布式堆外文件系统。
除了hdfs之外,还可以使用其他分布式文件系统吗?
如果是,需要实现哪些hdfs api?
运行yarn需要哪些hadoop组件?

mwngjboj

mwngjboj1#

这里有一些不同的问题

你能用像s3这样的东西来传播二进制文件吗?

是的:这就是linkedin过去使用http://downloads部署samza的方式。samza不需要集群文件系统,所以集群中没有运行hdfs,只有local file://filesystems,每个主机一个。
需要集群文件系统的应用程序不能在这样的集群中工作。

你能提出一个有替代文件系统的Yarn簇吗?

对。
关于“文件系统”是什么,请看文件系统规范。您需要一个跨文件系统的一致视图:newly create files list(),deleted files is not found,updates instally visible。文件和目录的rename()必须是原子操作,最好是o(1)。它用于工作的原子提交,检查点。。。哦,对于hbase,需要append()。
mapr做到了,redhat和glusterfs;ibm和emc为他们服务。请记住,几乎所有的东西都是在hdfs上测试的;您最好希望其他集群fs已经完成了测试(或者有人已经为他们完成了测试,比如hortonworks或cloudera)。

你能用一个对象存储作为底层fs来创建一个Yarn集群吗。

这取决于fs是否提供了一致的文件系统视图,而不是最终的一致性世界视图。hbase是真正的测试。
MicrosoftAzure存储是一致的,拥有获得对fs和rename()的独占访问权限的租约,速度非常快。在azure中,它完全取代了hdfs。
谷歌云存储于2017年3月1日宣布,gcs提供一致性。也许现在可以作为替代品;没有经验。
amazonemr确实提供了s3作为替代品,它使用(a)dynamo来实现一致的元数据,(b)做一些可怕的事情来让hbase工作。
asf自己的s3客户机s3a不能作为替代品。我们的团队致力于将读写性能作为数据的来源和最终目的地;在s3guard中,添加dynamo层和s3guard提交程序,使其能够作为高性能的工作目标(在避免rename()的同时对故障具有弹性)。

您正在编写的新的分布式文件系统能否用作hdfs的替代品?

好吧,你当然可以试试!
首先让所有的文件系统契约测试开始工作,这些测试度量基本的api遵从性。然后看看所有的apachebigtop测试,它们进行系统集成。我建议你一开始就避免使用hbase和acumulo,重点放在:mapreduce、hive、spark、flink。
不要害怕进入hadoop常见的dev和bigtop列表并提出问题。

2vuwiymt

2vuwiymt2#

下面是您必须实现的接口,关注您必须支持的保证。有一个工具可以测试合同。如果您需要一个例子,hadoop中有大量不同系统的实现,例如s3/azureblobs/ftp,它们是一个很好的起点。
您可以按类配置文件系统实现,所有组件都应遵循 fs.defaultFS 作为配置密钥。

vql8enpb

vql8enpb3#

yarn并不是分布式集群的唯一资源管理器。apachemesos与资源管理器类似(但内部技术不同)。它不依赖于hadoop组件。在企业云基础设施中,已经有许多用途,如dc/os(由mesos、docker等组成)

z9zf31ra

z9zf31ra4#

是的,只要您有一个支持hdfsapi的文件存储实现,就可以。
例如,您可以使用aws s3(s3n://或s3a://)而不是hdfs。很少有其他文件系统支持hdfsapi。

6qqygrtg

6qqygrtg5#

Yarn无需hdfs即可使用。您不必配置和启动hdfs服务,因此它将在没有hdfs的情况下运行。
但是没有hadoop就不能安装yarn。您必须下载hadoop并只配置yarn(以及您想要使用的其他服务)。

相关问题