关于在spark上配置配置单元的问题

h6my8fg2 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(562)

我已经下载了spark-2.0.0-bin-hadoop2.7。有人能建议如何在这个平台上配置配置配置单元并在scala控制台中使用吗？现在我可以使用scala（sparkshell控制台）在文件上运行rdd了。

hadoop Hive hdfs apache-spark bigdata

来源：https://stackoverflow.com/questions/39716363/issue-on-configure-hive-on-spark

3条答案

按热度按时间

4smxwvx51#

遵循spark上的官方hive文档：
https://cwiki.apache.org/confluence/display/hive/hive+on+spark%3a+getting+started
您可以使用以下命令在配置单元上设置spark引擎：

set hive.execution.engine=spark;

或者将其添加到hive-site.xml（请参阅kanishka post）
然后在hive2.2.0之前，将spark程序集jar复制到hivehome/lib。
从hive2.2.0开始，spark上的hive运行spark2.0.0及更高版本，而spark2.0及更高版本没有装配jar。
要使用yarn模式（yarn client或yarn cluster）运行，请将以下jar复制到hive\u home/lib。
scala库
Spark芯
Spark网络公用
设置spark\u主页：

export $SPARK_HOME=/path-to-spark

启动spark master和workers：

spark-class org.apache.spark.deploy.master.Master

spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT

配置spark：

set spark.master=<Spark Master URL>;
set spark.executor.memory=512m; 
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);     
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

赞(0）回复(0）举报 2021-06-03

vlf7wbxs2#

将hive-site.xml放到spark conf目录中

赞(0）回复(0）举报 2021-06-02

htrmnn0y3#

配置单元可以支持多个执行引擎。就像泰兹，斯帕克。可以在hive-site.xml中设置属性

</property> 
<name>hive.execution.engine</name>
<value>spark</value>
<description>
 I am choosing Spark as the execution engine
</description>
</property>

将jars spark程序集jar复制到hive\u home/lib
把Spark放在家里
设置以下属性

set spark.master=<Spark Master URL>
set spark.eventLog.enabled=true;
set spark.eventLog.dir=<Spark event log folder (must exist)>
set spark.executor.memory=512m;             
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

我想以上步骤就足够了

赞(0）回复(0）举报 2021-06-02

我来回答

关于在spark上配置配置单元的问题

3条答案

相关问题

热门标签

最新问答