我有一个集群,拥有大约15 tb的Yarn资源。我正在尝试通过配置单元提交查询。我的默认容器大小为4gb。为该查询分配的Map器数量大约为1000个。我的Yarn队列中总共分配了10%的资源。因此,在一个时间点只能分配430个集装箱。每个Map器总共分配一个容器。hdfs上的块大小为128 mb。如何选择查询的大小。
eiee3dmh1#
您已经提到了内存设置,这听起来不错,所以接下来优化查询的步骤(因为您没有给出它)是另外调整tez容器使您的hdfs输入文件的大小接近hdfs块的大小。如果您的队列已满,请使用其他队列( SET tez.queue.name )将配置单元表分区到基于 WHERE 条款。确保数据存储为orc w/zlib压缩。尽可能使用llap
SET tez.queue.name
WHERE
1条答案
按热度按时间eiee3dmh1#
您已经提到了内存设置,这听起来不错,所以接下来优化查询的步骤(因为您没有给出它)是
另外调整tez容器
使您的hdfs输入文件的大小接近hdfs块的大小。
如果您的队列已满,请使用其他队列(
SET tez.queue.name
)将配置单元表分区到基于
WHERE
条款。确保数据存储为orc w/zlib压缩。
尽可能使用llap