avro性能问题

wz8daaqr  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(247)

我们有文本文件(12gb),将相同的文件转换为avro文件(3GB)和gz(2.5gb)文件,当我们创建指向各个文件的外部配置单元表并运行select count(*)=>平面文件时,返回结果需要5-6分钟,gz=>4-5分钟,avro需要8分钟。
我的avro模式有string、double和int。我在schema中有大约201列。
我读avro应该在读avro文件的同时提高性能。但我的结果显示gz(使用单个Map器)的性能优于纯文本(6个Map器),纯文本的性能优于avro(3个Map器)。有没有办法提高avro文件的性能。
根据不同的博客,avro显示出比gz和文本文件更好的结果。在Hive设置中是否缺少一些东西。我已经在使用tez引擎了。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题