我有太字节的数据,已经在表中处理和压缩了。现在我想在hive外部表中转储数据,而不压缩put文件。我们是否可以将数据分块放入外部表中,或者是否有任何优化的方法可以做到这一点。如果我一次就完成了,它需要数TB的空间,我想在这方面进行优化。
CREATE EXTERNAL TABLE <table name>
(uuid STRING, t1 STRING, t2 STRING)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
LOCATION '${OUTPUT}';
INSERT OVERWRITE TABLE <table name> SELECT uuid, t1, t2 from <table name>;
请建议。它总是用完hdfs内存。
注意:如果启用压缩,则不会发现任何问题。设置mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.gzip代码;
设置mapred.output.compress=true;
设置hive.exec.compress.output=true;
设置mapred.output.compression.codec=org.apache.hadoop.io.compress.gzip代码;
暂无答案!
目前还没有任何答案,快来回答吧!