我有一个带有hdfs的集群,作为一个存储不足的分布式文件系统,但我刚刚读到了alluxio,它是一个快速而灵活的集群。所以,我的问题是:我应该将alluxio与hdfs一起使用,还是将alluxio作为hdfs的替代方案(我在他们的网站上看到,存储不足文件系统的共享存储可以是网络文件系统(nfs)。所以,我认为hdfs不是必需的。如果我犯了错误,请纠正我)。
在哪种模式下性能更好:使用alluxio的hdfs或alluxio stanalone(我的意思是术语standalone在集群中单独使用,而不是在本地使用)。
1条答案
按热度按时间jmp7cifd1#
alluxio维护人员回复。
首先,alluxio不是hdfs的替代品。相反,它是在其他分布式/云存储系统之上的一个新的抽象层,包括hdfs、s3、azure对象存储和其他可能的选择。在您的例子中,如果您的数据已经在hdfs中,那么您可能仍然会保留hdfs作为alluxio的持久数据层。
用户将alluxio放在图片中看到的典型场景包括:
物理数据不在计算机中。e、 例如,bigdata引擎正在从s3或其他对象存储读取数据。在这种情况下,通过将alluxio与计算节点一起部署,可以使alluxio作为文件系统级缓存工作,以避免在网络上重复获取数据。看到了吗http://www.alluxio.org/overview/remote-data-acceleration
您正在管理多个存储,并希望公开单个数据访问层以简化管理。e、 例如,可以将多个s3/bucket“装载”到一个alluxio部署中,以便它们在同一命名空间下显示为不同的目录。看到了吗http://www.alluxio.org/overview/storage-unification
关于你最初的表现问题。答案是,视情况而定。如果您的hdfs远离计算机,您将期望获得良好的性能增益。我还看到了hdfs瓶颈的情况,alluxio还可以帮助减少负载,并为某些关键任务提供良好的sla。