部署spark的最佳方法？

zaq34kh6 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(314)

在Yarn或emr上部署spark而不是ec2是否有实质性的优势？这将主要用于研究和原型设计，而且可能使用scala。我们不愿意不使用ec2的主要原因是其他选项所涉及的额外基础设施和复杂性，但也许它们也提供了实质性的好处？
我们主要是从s3读/写数据。

hadoop yarn apache-spark amazon-emr amazon-ec2

来源：https://stackoverflow.com/questions/30112253/best-way-to-deploy-spark

3条答案

按热度按时间

5w9g7ksd1#

emr与ec2“相同”，但安装了hadoop。如果您不需要hive/pig或hadoop本身，那么我认为您将免费支付额外的emr成本。结论：如果你只需要spark就可以更好地使用ec2，你可以通过“几次点击”得到一个spark集群。只需使用：spark-ec2脚本即可获得：
https://spark.apache.org/docs/latest/ec2-scripts.html
http://ampcamp.berkeley.edu/exercises-strata-conf-2013/launching-a-cluster.html
另一件事是当你说纱。。。我认为您误解了概念：ec2、emr和yarn。我自己解释：yarn（另一个资源谈判者）是spark用来运行大型集群机器的两个选项之一。你可以在mesos上使用spark，也可以在Yarn上使用spark。
请参阅此处：http://radar.oreilly.com/2015/02/a-tale-of-two-clusters-mesos-and-yarn.html

赞(0）回复(0）举报 2021-06-02

hwazgwia2#

让我们区分不同的层：有基础结构层，即spark作业应该在哪些（虚拟）机器上运行。潜在的选择包括本地机器集群或从ec2租用的虚拟机集群。特别是当从s3写入大量数据时，ec2可能是一个很好的选择，因为这两个服务都集成得很好，并且通常运行在相同的数据中心（为您提供更好的网络性能）。
第二层是顶层的软件/调度，即什么样的软件连接所有这些机器来调度和运行spark作业。这里的选项包括yarn（hadoop项目的调度器）、mesos（一个通用的调度器，也可以处理非hadoop工作负载）和myriad（基本上是mesos上的yarn）。
Yarn和细观的比较可以在这里找到。
emr为您提供了一个选项，可以轻松地启动hadoop/yarn集群。甚至存在引导操作，允许您在这些集群上安装spark。
希望这有助于回答你的问题！

赞(0）回复(0）举报 2021-06-02

wwwo4jvm3#

在mesos集群上使用spark，我们在spot示例上生成spark，这使得它非常昂贵。
另外，如果您使用spark访问s3，您可能需要使用directoutputcommitter，它可以删除一些在写入hadoop时需要的溢出

赞(0）回复(0）举报 2021-06-02