我有s3数据 GZIP
压缩。我试图用这个文件在雅典娜创建一个表,我的 CREATE TABLE
语句成功-但是当我查询表时,所有行都是空的。
create external table mydatabase.table1 (
date date,
week_begin_date date,
week_end_date date,
value float
)
row format delimited fields terminated by ','
stored as inputformat 'org.apache.hadoop.mapred.TextInputFormat'
outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location 's3://my-bucket/some/path/'
我怎么能坚持让雅典娜读我的档案 GZIP
?
1条答案
按热度按时间uyhoqukh1#
而雅典娜支持
TBLPROPERTIES
元数据(我们可以在CREATE TABLE
,ALTER TABLE
设置这些属性,以及SHOW TBLPROPERTIES
显示任何表的属性),它不尊重TBLPROPERTIES ('compressionType'='gzip')
选项。没有明显的方法来强制压缩/解压算法。雅典娜试图识别基于文件扩展名的压缩。一
GZIP
使用.gz
后缀可读;一GZIP
没有该后缀的文件将不可用。类似地,具有
.gz
后缀将失败。报告的错误为配置单元\u光标\u错误:标头检查不正确
一些调查显示:
唯一能让雅典娜把文件认作
GZIP
就是用一个.gz
后缀。其他不起作用的类似后缀包括
.gzip
,.zip
,[^.]gz
GZIP
而且未压缩的文件可以在雅典娜表或分区中愉快地并排存在—压缩检测是在文件级完成的,而不是在表级。