我有一个hbase和mapreduce程序。我用hdfs存储数据,这个文件的大小是:100g。现在我把这些数据放到hbase上。我用mapreduce扫描这个文件损失了5分钟。但扫描hbase表却浪费了30分钟。如何提高使用hbase和mapreduce时的速度?谢谢。
alen0pnh1#
我假设您有一个单节点hdfs。如果您的100gb文件位于hdf的多节点集群中,那么map reduce和hive的速度都会更快。你可以尝试增加mapper和reducer上的mapper和reducer的数量来提高性能,看看这篇文章。hive本质上是一个建立在hdfs之上的数据仓库工具,它下面的每个查询本身就是一个map reduce任务。所以上面的帖子也能回答这个问题。
1条答案
按热度按时间alen0pnh1#
我假设您有一个单节点hdfs。如果您的100gb文件位于hdf的多节点集群中,那么map reduce和hive的速度都会更快。
你可以尝试增加mapper和reducer上的mapper和reducer的数量来提高性能,看看这篇文章。
hive本质上是一个建立在hdfs之上的数据仓库工具,它下面的每个查询本身就是一个map reduce任务。所以上面的帖子也能回答这个问题。