我在Hive里遇到了兽人类型的数据问题。如果有人遇到类似的问题,我需要一些建议。
我在配置单元表中存储了大量数据(分区和强制)。orc数据大小约为4 tb。我正在尝试将此数据复制到未压缩的普通配置单元表(相同的表结构)。
该进程将永远运行,并占用大量的非dfs存储空间。目前,该进程运行了12个小时,占用了130 tb的非dfs。对于一个拥有20台服务器的hadoop集群来说,这是非常不正常的。
以下是我的参数:
Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**
我想知道一个简单的连接或者一个普通的分析操作在这个orced表上会做什么。理论上讲,orc格式的数据可以提高基本dml查询的性能。
如果我做错了什么或者这是正常的行为,有人能告诉我吗?这是我的第一次经历。
嗯,在一个初学者,我看到Yarn日志文件正在被创建在巨大的大小。大多数情况下,它只显示重的错误日志。
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!