我想把一天的avro数据(~2tb)转换成parquet。我运行了一个配置单元查询,成功地将数据转换为parquet。但是数据大小变成了6TB。如果数据变成原来的三倍,会发生什么?
pbwdgjma1#
通常,parquet比avro更有效,因为它是一种列格式,相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常我们使用snappy,snappy是足够的,易于使用cpu,并且有几个属性使得它相对于其他压缩方法(如zip或gzip)适合hadoop。snappy主要是可拆分的;每个块保留确定模式所需的信息。mparquet是一种很好的格式,我们对从avro迁移后的查询性能非常满意(我们还可以使用impapla,它非常快)。
1条答案
按热度按时间pbwdgjma1#
通常,parquet比avro更有效,因为它是一种列格式,相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常我们使用snappy,snappy是足够的,易于使用cpu,并且有几个属性使得它相对于其他压缩方法(如zip或gzip)适合hadoop。snappy主要是可拆分的;每个块保留确定模式所需的信息。mparquet是一种很好的格式,我们对从avro迁移后的查询性能非常满意(我们还可以使用impapla,它非常快)。