背景:
emr 5.4 2节点集群(主节点+从节点)。
在安装过程中提供了外部配置单元元存储详细信息。
Hive仓库已设置在s3上。
我使用spark2.1来处理文件并创建一个staging表。
一旦暂存表准备就绪,我将尝试使用配置单元将该数据加载到配置单元表中。
问题:insert语句通常在其他集群(aws之外)上运行7-10分钟,但在emr集群上却要花很长时间才能运行。我能够查询spark从hive创建的staging表。以下是我使用的语句:
CREATE TABLE Test1(
column1 string ,
column2 string,
column3 double)
PARTITIONED BY (Date_1 date)
INSERT OVERWRITE TABLE Test1 PARTITION(date_1)
SELECT
column1,
column2,
column3,
date_1
FROM Test1_stag
任何帮助都将不胜感激。
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!