将一个大的.csv文件从.tar.gz文件加载到配置单元表中

jslywgbw 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(398)

我有一个很大的 .csv 文件存储在 .tar.gz 并希望将其内容放入配置单元表中。很遗憾，没有足够的磁盘空间来解压 .csv 文件。
我尝试了以下方法（以及以下方法的变体）：

Set Hive.exec.compress.output = true;
Set io.seqfile.compression.type = block;

DROP TABLE IF EXISTS db.test;
CREATE TABLE db.test
 (var1 STRING, . . . varn STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
FIELDS TERMINATED BY '\n';

create table test_seq 
stored as sequencefile as
 select * from test ;
LOAD DATA LOCAL INPATH '/home/db/test.tar.gz' INTO TABLE db.test;

create table test_seq
stored as sequencefile as
 select * from test;

SELECT * FROM test LIMIT 10;

但是结果表只包含空值。有什么建议吗？为什么？

hadoop Hive csv

来源：https://stackoverflow.com/questions/40268369/load-a-large-csv-file-from-a-tar-gz-file-into-hive-table