hive数据处理比预期花费更长的时间

ru9i0ody  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(195)

我在Hive里遇到了兽人类型的数据问题。如果有人遇到类似的问题,我需要一些建议。
我在配置单元表中存储了大量数据(分区和强制)。orc数据大小约为4 tb。我正在尝试将此数据复制到未压缩的普通配置单元表(相同的表结构)。
该进程将永远运行,并占用大量的非dfs存储空间。目前,该进程运行了12个小时,占用了130 tb的非dfs。对于一个拥有20台服务器的hadoop集群来说,这是非常不正常的。
以下是我的参数:

Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**

我想知道一个简单的连接或者一个普通的分析操作在这个orced表上会做什么。理论上讲,orc格式的数据可以提高基本dml查询的性能。
如果我做错了什么或者这是正常的行为,有人能告诉我吗?这是我的第一次经历。
嗯,在一个初学者,我看到Yarn日志文件正在被创建在巨大的大小。大多数情况下,它只显示重的错误日志。
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题