关于在spark上配置配置单元的问题

h6my8fg2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(562)

我已经下载了spark-2.0.0-bin-hadoop2.7。有人能建议如何在这个平台上配置配置配置单元并在scala控制台中使用吗?现在我可以使用scala(sparkshell控制台)在文件上运行rdd了。

4smxwvx5

4smxwvx51#

遵循spark上的官方hive文档:
https://cwiki.apache.org/confluence/display/hive/hive+on+spark%3a+getting+started
您可以使用以下命令在配置单元上设置spark引擎:

set hive.execution.engine=spark;

或者将其添加到hive-site.xml(请参阅kanishka post)
然后在hive2.2.0之前,将spark程序集jar复制到hivehome/lib。
从hive2.2.0开始,spark上的hive运行spark2.0.0及更高版本,而spark2.0及更高版本没有装配jar。
要使用yarn模式(yarn client或yarn cluster)运行,请将以下jar复制到hive\u home/lib。
scala库
Spark芯
Spark网络公用
设置spark\u主页:

export $SPARK_HOME=/path-to-spark

启动spark master和workers:

spark-class org.apache.spark.deploy.master.Master

spark-class org.apache.spark.deploy.worker.Worker spark://MASTER_IP:PORT

配置spark:

set spark.master=<Spark Master URL>;
set spark.executor.memory=512m; 
set spark.yarn.executor.memoryOverhead=10~20% of spark.executor.memory(value);     
set spark.serializer=org.apache.spark.serializer.KryoSerializer;
vlf7wbxs

vlf7wbxs2#

将hive-site.xml放到spark conf目录中

htrmnn0y

htrmnn0y3#

配置单元可以支持多个执行引擎。就像泰兹,斯帕克。可以在hive-site.xml中设置属性

</property> 
<name>hive.execution.engine</name>
<value>spark</value>
<description>
 I am choosing Spark as the execution engine
</description>
</property>

将jars spark程序集jar复制到hive\u home/lib
把Spark放在家里
设置以下属性

set spark.master=<Spark Master URL>
set spark.eventLog.enabled=true;
set spark.eventLog.dir=<Spark event log folder (must exist)>
set spark.executor.memory=512m;             
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

我想以上步骤就足够了

相关问题