apache-yarn可以在没有hdfs的情况下使用吗？

wecizke3 于 2021-06-02 发布在 Hadoop

关注(0)|答案(5)|浏览(633)

我想使用apacheyarn作为集群和资源管理器来运行一个框架，在这个框架中，资源将在同一框架的不同任务之间共享。我想使用我自己的分布式堆外文件系统。
除了hdfs之外，还可以使用其他分布式文件系统吗？
如果是，需要实现哪些hdfs api？
运行yarn需要哪些hadoop组件？

hadoop yarn apache hadoop2

来源：https://stackoverflow.com/questions/42549872/can-apache-yarn-be-used-without-hdfs

5条答案

按热度按时间

mwngjboj1#

这里有一些不同的问题

你能用像s3这样的东西来传播二进制文件吗？

是的：这就是linkedin过去使用http://downloads部署samza的方式。samza不需要集群文件系统，所以集群中没有运行hdfs，只有local file://filesystems，每个主机一个。
需要集群文件系统的应用程序不能在这样的集群中工作。

你能提出一个有替代文件系统的Yarn簇吗？

对。
关于“文件系统”是什么，请看文件系统规范。您需要一个跨文件系统的一致视图：newly create files list（），deleted files is not found，updates instally visible。文件和目录的rename（）必须是原子操作，最好是o（1）。它用于工作的原子提交，检查点。。。哦，对于hbase，需要append（）。
mapr做到了，redhat和glusterfs；ibm和emc为他们服务。请记住，几乎所有的东西都是在hdfs上测试的；您最好希望其他集群fs已经完成了测试（或者有人已经为他们完成了测试，比如hortonworks或cloudera）。

你能用一个对象存储作为底层fs来创建一个Yarn集群吗。

这取决于fs是否提供了一致的文件系统视图，而不是最终的一致性世界视图。hbase是真正的测试。
MicrosoftAzure存储是一致的，拥有获得对fs和rename（）的独占访问权限的租约，速度非常快。在azure中，它完全取代了hdfs。
谷歌云存储于2017年3月1日宣布，gcs提供一致性。也许现在可以作为替代品；没有经验。
amazonemr确实提供了s3作为替代品，它使用（a）dynamo来实现一致的元数据，（b）做一些可怕的事情来让hbase工作。
asf自己的s3客户机s3a不能作为替代品。我们的团队致力于将读写性能作为数据的来源和最终目的地；在s3guard中，添加dynamo层和s3guard提交程序，使其能够作为高性能的工作目标（在避免rename（）的同时对故障具有弹性）。

您正在编写的新的分布式文件系统能否用作hdfs的替代品？

好吧，你当然可以试试！
首先让所有的文件系统契约测试开始工作，这些测试度量基本的api遵从性。然后看看所有的apachebigtop测试，它们进行系统集成。我建议你一开始就避免使用hbase和acumulo，重点放在：mapreduce、hive、spark、flink。
不要害怕进入hadoop常见的dev和bigtop列表并提出问题。

赞(0）回复(0）举报 2021-06-02

2vuwiymt2#

下面是您必须实现的接口，关注您必须支持的保证。有一个工具可以测试合同。如果您需要一个例子，hadoop中有大量不同系统的实现，例如s3/azureblobs/ftp，它们是一个很好的起点。
您可以按类配置文件系统实现，所有组件都应遵循 fs.defaultFS 作为配置密钥。

赞(0）回复(0）举报 2021-06-02

vql8enpb3#

yarn并不是分布式集群的唯一资源管理器。apachemesos与资源管理器类似（但内部技术不同）。它不依赖于hadoop组件。在企业云基础设施中，已经有许多用途，如dc/os（由mesos、docker等组成）

赞(0）回复(0）举报 2021-06-02

z9zf31ra4#

是的，只要您有一个支持hdfsapi的文件存储实现，就可以。
例如，您可以使用aws s3（s3n://或s3a://）而不是hdfs。很少有其他文件系统支持hdfsapi。

赞(0）回复(0）举报 2021-06-02

6qqygrtg5#

Yarn无需hdfs即可使用。您不必配置和启动hdfs服务，因此它将在没有hdfs的情况下运行。
但是没有hadoop就不能安装yarn。您必须下载hadoop并只配置yarn（以及您想要使用的其他服务）。