hive查询生成需要很长时间才能生成数据集

31moq8wy 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(332)

我正在尝试对大量数据（几乎是petabyte的一半）运行配置单元查询，这些查询在内部运行map reduce。生成数据集需要很长时间（map reduce才能完成）我可以使用什么样的优化机制来加快这些查询，还有一个更重要的问题，map reduce或in/tmp目录中的可用磁盘数量对加快map reduce很重要吗？

hadoop Hive mapreduce

来源：https://stackoverflow.com/questions/13124502/hive-query-generation-is-taking-long-time-to-generate-dataset

1条答案

按热度按时间

zpgglvta1#

你能做的不多，但我可以给你一些通常可以用Hive做的指导：
您应该选择导致较少洗牌的sql。例如，在可能的情况下，可以尝试导致Map侧连接。您还可以通过某种方式执行某些操作，从而生成仅Map的查询。
另一种方法是调整reducer的数量——有时hive定义的reducer比需要的少得多——所以您可以手动设置它以更好地利用集群
如果要运行大量查询来执行转换，那么可以在hdfs中为此临时数据定义低复制因子
如果我们知道你在做什么，我们可以提供更多的帮助。

赞(0）回复(0）举报 2021-06-03

我来回答

hive查询生成需要很长时间才能生成数据集

1条答案

相关问题

热门标签

最新问答