对于报表平台,选择什么样的yarn cluster或yarn client?

2ic8powd  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(364)

我计划做的是利用现有数据开发一个报告平台。我有一个现有的rdbms有大量的记录。所以我在用(hadoop 2.7、spark、hive、jasperreports、scoop-架构)
独家新闻-从rdbms提取数据到hadoop
hadoop-存储平台
配置单元-数据仓库
Spark-由于Hive更像批处理SparkHive将加快事情
jasperreports-生成报告。
鉴于我已经阅读了以下内容
spark中的客户机模式是什么?
Yarn客户模式与Yarn集群模式的区别
我应该使用哪种模式?为什么?决定基于什么?

35g0bw71

35g0bw711#

为danier darabos添加更多信息:除了托管应用程序/faillover和驱动程序运行的位置(yarn cluster模式下的应用程序主机或yarn client模式下的客户端),其他功能保持不变。但yarn客户机模式支持sparkshell,这与yarn集群模式不同。

看看这篇文章,了解一下在不同的模式下运行spark应用程序的区别——Yarn集群、Yarn客户机和spark独立模式
在考虑所有选项的标准后,做出一个经过计算的决定。

y4ekin9u

y4ekin9u2#

决定是您是否希望应用程序作为应用程序运行。
非Yarn应用程序 yarn-client 模式)更简单。它是一个经典的linux应用程序,你可以像任何应用程序一样启动它,它也可以像任何应用程序一样在那台机器上运行。
Yarn应用程序(您可以在 yarn-cluster 模式)由Yarn管理。它在任何机器上运行。如果它死了,Yarn会重新启动它,也许是在另一台机器上。它更健壮(例如,如果机器死机,它将重新启动),但代价是复杂性(例如,应用程序没有固定的ip地址)。
我会和你一起去 yarn-client 一开始。你可以切换到 yarn-cluster 稍后,如果您发现您需要它提供的功能。

相关问题