我们正在研究poc,以找出哪种压缩技术更适合用于将文件保存为压缩格式,并从压缩格式获得更好的性能。我们有4种格式*.gz,.zlib,.snappy和*.lz4。
我们发现*.gz和*.zlib具有更好的压缩比,但它们在读取压缩文件时存在性能问题,因为这些文件是不可拆分的,并且Map器的数目、还原器总是1。配置单元0.14默认接受这些格式。
但是我们想测试其他的压缩技术,比如*.lz4、.lzo和snappy
有谁能帮助我配置我的配置单元来读取压缩在.lzo、snappy和*.lz4以及avro中的输入文件吗。
这些压缩技术是现在的hive0.14还是我需要上传这些*.jar(我是.net的人,对java一无所知)并使用serde进行序列化和反序列化。
有谁能帮我确定hive在默认情况下是否接受像*.lzo、.snappy和.lz4和avro这样的文件格式来读取这些压缩文件,以及我是否需要配置hive来读取这些文件格式。我在寻找最好的性能,而压缩文件格式的阅读。它可以妥协压缩比,但应该有更好的阅读性能。
暂无答案!
目前还没有任何答案,快来回答吧!