我正在学习spark,但是如果我必须在hadoop/yarn或mesos上运行spark,我会感到困惑。如果我在hadoop/mesos上运行,有什么性能提升吗?现在,我只是在一个4节点的集群上独立运行。任何有经验的用户谁可以提供一些指导呢?
0h4hbjxa1#
根据用例的细节,您可能会看到与其他配置相比,任何给定配置中的性能都会上下波动。不过,hadoop和mesos给了您性能以外的其他优势。每种情况下都有很多种,例如:hadoop软件hdfs作为一个有弹性的分布式文件存储。使用hadoop中现有的元数据访问数据集,例如通过hivecontext将spark处理与map reduce等其他方法混合使用以资源管理器的身份为任务分配资源mesos-mesos比hadoop更专注于一个特定的角色,即跨机器集群管理资源。但是,它可以跨一系列工作负载类型执行此操作。这些可以是数据处理作业,如spark、akka中的分布式应用程序、分布式数据库等。如果一台机器出现故障,它可以将任务移动到其他机器。我推荐看这个视频,我有幸参加了这次现场见面会:https://www.youtube.com/watch?v=gzx4-6rb7yw它演示了如何使用spark、hdfs、mesos和docker在amazon云机器集群上进行分布式计算。
1条答案
按热度按时间0h4hbjxa1#
根据用例的细节,您可能会看到与其他配置相比,任何给定配置中的性能都会上下波动。不过,hadoop和mesos给了您性能以外的其他优势。每种情况下都有很多种,例如:
hadoop软件
hdfs作为一个有弹性的分布式文件存储。
使用hadoop中现有的元数据访问数据集,例如通过hivecontext
将spark处理与map reduce等其他方法混合使用
以资源管理器的身份为任务分配资源
mesos-mesos比hadoop更专注于一个特定的角色,即跨机器集群管理资源。但是,它可以跨一系列工作负载类型执行此操作。这些可以是数据处理作业,如spark、akka中的分布式应用程序、分布式数据库等。如果一台机器出现故障,它可以将任务移动到其他机器。
我推荐看这个视频,我有幸参加了这次现场见面会:https://www.youtube.com/watch?v=gzx4-6rb7yw
它演示了如何使用spark、hdfs、mesos和docker在amazon云机器集群上进行分布式计算。