parquet文件格式与map reduce的性能问题

odopli94  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(201)

我有一个2.1tb的未压缩数据,我加载到两个表,都是snappy压缩,但一个与Parquet文件格式,另一个是使用orc文件格式。在创建parquet文件格式时,我保持hdfs块大小与parquet.block.size相同。
我观察到,我的map reduce查询在parquet上的性能与orc相比非常差。这些都是聚合查询,orc需要不到一分钟的时间,而Parquet则需要超过5-6分钟。当我使用tez执行引擎时,性能是相当的。
我使用的是hdp2.5.x版本的发行版。
有没有人遇到过类似的问题,有没有任何关于单独使用mr提高绩效的提示?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题