sqoop snappy压缩不起作用

ar7v8xwq 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(446)

我有下面的sqoop脚本，它应该在parquet中获取数据并使用snappy压缩。

sqoop import \ 
--hive-drop-import-delims \
--fields-terminated-by '\001' \
--connect '<Connection URL>' \
--query 'select * from <db_name>.<table_name> where $CONDITIONS' \
--username <username> \
--password <password> \
--split-by '<split-by-key>' \
-m=4 \
--input-null-string '' \
--input-null-non-string '' \
--inline-lob-limit 0 \
--target-dir <hdfs/location/where/files/should/land> \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--as-parquetfile \
--map-column-java NOTES_DETAIL=String,NOTES=String \

一旦脚本成功完成，我进入hdfs位置['hdfs/location/where/files/should/land']，看到既没有应用snappy压缩，也没有显示\u succus文件。为什么会这样？
这是我列出文件夹中的文件时看到的

21cbd1a6-d58b-4fdc-b332-7433e582ce0b.parquet
3956b0ff-58fd-4a87-b383-4fecc337a72a.parquet
3b42a1a9-4aa7-4668-bdd8-41624dec5ac6.parquet

如您所见，文件名中既没有.snappy，也没有\u success file。

hadoop Hive parquet snappy

来源：https://stackoverflow.com/questions/44769308/sqoop-snappy-compression-not-working

2条答案

按热度按时间

mrphzbgm1#

使用以下参数启用压缩：
-z、 --压缩
参考文献：https://sqoop.apache.org/docs/1.4.2/sqoopuserguide.html

赞(0）回复(0）举报 2021-06-02

n1bvdmb62#

在Parquet文件的扩展名处看不到使用了哪个压缩。在Parquet文件中，数据在内部压缩成块。通过“编解码器”选择，可以指定整个文件中的每个块应使用哪个编解码器。不过，parquet规范允许您更改每个数据块中的压缩编解码器，因此您可以在parquet文件中混合压缩编解码器。一些工具产生 .snappy.parquet 文件以指示所选的压缩级别，但这只是装饰性的，因为压缩信息存储在文件的元数据中。
要检查Parquet文件是否已快速压缩，请使用 parquet-tools .

赞(0）回复(0）举报 2021-06-02

我来回答

sqoop snappy压缩不起作用

2条答案

相关问题

热门标签

最新问答