我有一个2.1tb的未压缩数据,我加载到两个表,都是snappy压缩,但一个与Parquet文件格式,另一个是使用orc文件格式。在创建parquet文件格式时,我保持hdfs块大小与parquet.block.size相同。
我观察到,我的map reduce查询在parquet上的性能与orc相比非常差。这些都是聚合查询,orc需要不到一分钟的时间,而Parquet则需要超过5-6分钟。当我使用tez执行引擎时,性能是相当的。
我使用的是hdp2.5.x版本的发行版。
有没有人遇到过类似的问题,有没有任何关于单独使用mr提高绩效的提示?
暂无答案!
目前还没有任何答案,快来回答吧!