tez在更大数据集上的运行时间比hive慢(~2.5 tb)

pb3skfrl  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(317)

我们已经开始研究测试tez查询引擎。从最初的结果来看,在较小的数据集(1-10gb)上,我们的性能比hive提高了30%,但随着数据量的增加,hive的性能开始优于tez。例如,当我们使用tez对大约1.3tb的数据运行配置单元查询时,它的性能比单独使用配置单元时差(性能降低约20%),详情见下文。
http://www.jwplayer.com/blog/hive-with-tez-on-emr/
在具有1.3 tb ram的群集上,我设置了以下属性:

set tez.task.resource.memory.mb=10000;
set tez.am.resource.memory.mb=59205;
set tez.am.launch.cmd-opts =-Xmx47364m;
set hive.tez.container.size=59205;
set hive.tez.java.opts=-Xmx47364m;
set tez.am.grouping.max-size=36700160000;

这是正常的还是缺少某些属性/没有正确配置某些属性?另外,我现在使用的是旧版本的tez。这也是问题所在吗?我仍然需要在emr上引导最新版本的tez并测试它,看看它是否能做得更好

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题