我想知道hadoop中压缩编解码器和文件格式的区别。例如,Parquet文件格式还可以减小原始文件的大小并支持文件拆分。bzip2编解码器也做同样的事情。请帮助我更好地理解两者的区别。
z4bn682m1#
压缩和文件格式完全不同。文件格式描述存储在文件中的数据的结构。avro将包含avro序列化的对象,sequencefile将包含一个键(通常是一个数字)和一个值(原始数据)。Parquet地板是一种特殊的文件格式,允许列化存储,因此非常节省空间。您可以使用更高效的格式(例如,图像的tiff和jpg)和更少的格式(psd)。除此之外,您可以选择使用不同的压缩编解码器压缩存储中的文件。bzip、snappy和gz是常用的方法。这将对应于在上面的示例中使用zip压缩图像。希望这能提供一些清晰的信息。
1条答案
按热度按时间z4bn682m1#
压缩和文件格式完全不同。
文件格式描述存储在文件中的数据的结构。avro将包含avro序列化的对象,sequencefile将包含一个键(通常是一个数字)和一个值(原始数据)。Parquet地板是一种特殊的文件格式,允许列化存储,因此非常节省空间。
您可以使用更高效的格式(例如,图像的tiff和jpg)和更少的格式(psd)。
除此之外,您可以选择使用不同的压缩编解码器压缩存储中的文件。bzip、snappy和gz是常用的方法。这将对应于在上面的示例中使用zip压缩图像。
希望这能提供一些清晰的信息。