hive将avro转换为parquet后,数据量大幅增加

neskvpey  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(354)

我想把一天的avro数据(~2tb)转换成parquet。
我运行了一个配置单元查询,成功地将数据转换为parquet。
但是数据大小变成了6TB。
如果数据变成原来的三倍,会发生什么?

pbwdgjma

pbwdgjma1#

通常,parquet比avro更有效,因为它是一种列格式,相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常我们使用snappy,snappy是足够的,易于使用cpu,并且有几个属性使得它相对于其他压缩方法(如zip或gzip)适合hadoop。snappy主要是可拆分的;每个块保留确定模式所需的信息。mparquet是一种很好的格式,我们对从avro迁移后的查询性能非常满意(我们还可以使用impapla,它非常快)。

相关问题