我们有文本文件(12gb),将相同的文件转换为avro文件(3GB)和gz(2.5gb)文件,当我们创建指向各个文件的外部配置单元表并运行select count(*)=>平面文件时,返回结果需要5-6分钟,gz=>4-5分钟,avro需要8分钟。
我的avro模式有string、double和int。我在schema中有大约201列。
我读avro应该在读avro文件的同时提高性能。但我的结果显示gz(使用单个Map器)的性能优于纯文本(6个Map器),纯文本的性能优于avro(3个Map器)。有没有办法提高avro文件的性能。
根据不同的博客,avro显示出比gz和文本文件更好的结果。在Hive设置中是否缺少一些东西。我已经在使用tez引擎了。
暂无答案!
目前还没有任何答案,快来回答吧!