使用athena指定压缩类型

7cwmlq89  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(285)

我有s3数据 GZIP 压缩。我试图用这个文件在雅典娜创建一个表,我的 CREATE TABLE 语句成功-但是当我查询表时,所有行都是空的。

create external table mydatabase.table1 (
   date date,
   week_begin_date date,
   week_end_date date,
   value float
)
row format delimited fields terminated by ','
stored as inputformat 'org.apache.hadoop.mapred.TextInputFormat'     
outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location 's3://my-bucket/some/path/'

我怎么能坚持让雅典娜读我的档案 GZIP ?

uyhoqukh

uyhoqukh1#

而雅典娜支持 TBLPROPERTIES 元数据(我们可以在 CREATE TABLE , ALTER TABLE 设置这些属性,以及 SHOW TBLPROPERTIES 显示任何表的属性),它不尊重 TBLPROPERTIES ('compressionType'='gzip') 选项。
没有明显的方法来强制压缩/解压算法。雅典娜试图识别基于文件扩展名的压缩。一 GZIP 使用 .gz 后缀可读;一 GZIP 没有该后缀的文件将不可用。
类似地,具有 .gz 后缀将失败。报告的错误为
配置单元\u光标\u错误:标头检查不正确
一些调查显示:
唯一能让雅典娜把文件认作 GZIP 就是用一个 .gz 后缀。
其他不起作用的类似后缀包括 .gzip , .zip ,
[^.]gz GZIP 而且未压缩的文件可以在雅典娜表或分区中愉快地并排存在—压缩检测是在文件级完成的,而不是在表级。

相关问题