部署spark的最佳方法?

zaq34kh6  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(314)

在Yarn或emr上部署spark而不是ec2是否有实质性的优势?这将主要用于研究和原型设计,而且可能使用scala。我们不愿意不使用ec2的主要原因是其他选项所涉及的额外基础设施和复杂性,但也许它们也提供了实质性的好处?
我们主要是从s3读/写数据。

5w9g7ksd

5w9g7ksd1#

emr与ec2“相同”,但安装了hadoop。如果您不需要hive/pig或hadoop本身,那么我认为您将免费支付额外的emr成本。结论:如果你只需要spark就可以更好地使用ec2,你可以通过“几次点击”得到一个spark集群。只需使用:spark-ec2脚本即可获得:
https://spark.apache.org/docs/latest/ec2-scripts.html
http://ampcamp.berkeley.edu/exercises-strata-conf-2013/launching-a-cluster.html
另一件事是当你说纱。。。我认为您误解了概念:ec2、emr和yarn。我自己解释:yarn(另一个资源谈判者)是spark用来运行大型集群机器的两个选项之一。你可以在mesos上使用spark,也可以在Yarn上使用spark。
请参阅此处:http://radar.oreilly.com/2015/02/a-tale-of-two-clusters-mesos-and-yarn.html

hwazgwia

hwazgwia2#

让我们区分不同的层:有基础结构层,即spark作业应该在哪些(虚拟)机器上运行。潜在的选择包括本地机器集群或从ec2租用的虚拟机集群。特别是当从s3写入大量数据时,ec2可能是一个很好的选择,因为这两个服务都集成得很好,并且通常运行在相同的数据中心(为您提供更好的网络性能)。
第二层是顶层的软件/调度,即什么样的软件连接所有这些机器来调度和运行spark作业。这里的选项包括yarn(hadoop项目的调度器)、mesos(一个通用的调度器,也可以处理非hadoop工作负载)和myriad(基本上是mesos上的yarn)。
Yarn和细观的比较可以在这里找到。
emr为您提供了一个选项,可以轻松地启动hadoop/yarn集群。甚至存在引导操作,允许您在这些集群上安装spark。
希望这有助于回答你的问题!

wwwo4jvm

wwwo4jvm3#

在mesos集群上使用spark,我们在spot示例上生成spark,这使得它非常昂贵。
另外,如果您使用spark访问s3,您可能需要使用directoutputcommitter,它可以删除一些在写入hadoop时需要的溢出

相关问题