在配置单元外部表中输出数TB的数据

ktecyv1j  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(230)

我有太字节的数据,已经在表中处理和压缩了。现在我想在hive外部表中转储数据,而不压缩put文件。我们是否可以将数据分块放入外部表中,或者是否有任何优化的方法可以做到这一点。如果我一次就完成了,它需要数TB的空间,我想在这方面进行优化。

CREATE EXTERNAL TABLE <table name>
(uuid STRING, t1 STRING, t2 STRING) 
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' 
LOCATION '${OUTPUT}';

INSERT OVERWRITE TABLE <table name> SELECT uuid, t1, t2 from <table name>;

请建议。它总是用完hdfs内存。
注意:如果启用压缩,则不会发现任何问题。设置mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.gzip代码;
设置mapred.output.compress=true;
设置hive.exec.compress.output=true;
设置mapred.output.compression.codec=org.apache.hadoop.io.compress.gzip代码;

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题