使用ssd改进hive的性能

rggaifut 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(400)

我正在尝试使用ssd来提高hive的性能。ssd是一种高速随机存取设备。尝试更改mapreduce代码中要执行的配置单元。现在我的想法是简化或消除洗牌步骤。这可能吗？如果可能的话，你在哪里换车？
请告诉我们，当配置单元运行时会发生什么，临时文件存储在哪里。
我英语不太好。我很抱歉。谢谢您。

hadoop Hive mapreduce shuffle

来源：https://stackoverflow.com/questions/40138669/performance-improvement-of-the-hive-with-ssd

1条答案

按热度按时间

jrcvhitl1#

理论上，您可以编写自己的分区器，并将数据发送到在Map程序运行的同一节点上运行的reducer上。这样做您将永远不会得到输出文件“unsplited”，因此避免洗牌不是一个好主意。
如果你有一个像ssd一样的快速磁盘可以，你可以增加块的大小。通常计算块大小时，寻道时间不大于整个块传输的1%。
这也将减少使用的Map器的数量，因为分割的数量很少。在某种程度上，更少的Map器意味着更少的洗牌。使用压缩文件格式作为中间文件，也加快了工作速度。

赞(0）回复(0）举报 2021-06-02

我来回答

使用ssd改进hive的性能

1条答案

相关问题

热门标签

最新问答