使用ssd改进hive的性能

rggaifut  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(400)

我正在尝试使用ssd来提高hive的性能。ssd是一种高速随机存取设备。尝试更改mapreduce代码中要执行的配置单元。现在我的想法是简化或消除洗牌步骤。这可能吗?如果可能的话,你在哪里换车?
请告诉我们,当配置单元运行时会发生什么,临时文件存储在哪里。
我英语不太好。我很抱歉。谢谢您。

jrcvhitl

jrcvhitl1#

理论上,您可以编写自己的分区器,并将数据发送到在Map程序运行的同一节点上运行的reducer上。这样做您将永远不会得到输出文件“unsplited”,因此避免洗牌不是一个好主意。
如果你有一个像ssd一样的快速磁盘可以,你可以增加块的大小。通常计算块大小时,寻道时间不大于整个块传输的1%。
这也将减少使用的Map器的数量,因为分割的数量很少。在某种程度上,更少的Map器意味着更少的洗牌。使用压缩文件格式作为中间文件,也加快了工作速度。

相关问题