hadoop中压缩编解码器和文件格式的区别?

bn31dyow  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(439)

我想知道hadoop中压缩编解码器和文件格式的区别。例如,Parquet文件格式还可以减小原始文件的大小并支持文件拆分。bzip2编解码器也做同样的事情。请帮助我更好地理解两者的区别。

z4bn682m

z4bn682m1#

压缩和文件格式完全不同。
文件格式描述存储在文件中的数据的结构。avro将包含avro序列化的对象,sequencefile将包含一个键(通常是一个数字)和一个值(原始数据)。Parquet地板是一种特殊的文件格式,允许列化存储,因此非常节省空间。
您可以使用更高效的格式(例如,图像的tiff和jpg)和更少的格式(psd)。
除此之外,您可以选择使用不同的压缩编解码器压缩存储中的文件。bzip、snappy和gz是常用的方法。这将对应于在上面的示例中使用zip压缩图像。
希望这能提供一些清晰的信息。

相关问题