hadoop在集群和独立系统中的处理时间

acruukt9  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(323)

我已经在相同的hdfs上建立了一个3节点hadoop集群(1个namenode,2个data node)和hbase。每个节点都是运行在我的windows 8机器上的512 mb ubuntu虚拟机映像(intel i5,4gb ram,2.4ghz)
我已经基于这个博客配置了hbase hadoophttp://ankitasblogger.blogspot.in/2011/01/hadoop-cluster-setup.html
我写了一个程序,分析美国人口普查数据,这是大约有500000记录(减少集)。我只是在map task中读取文件(来自hdfs)并将其存储为hbase。然后根据过滤器检索数据。
当我在独立(512MB虚拟机)hadoop hbase中运行程序时,大约需要23分钟。但是,当我在集群中运行同一个jar(512*3mb)时,需要40分钟以上的时间。
为什么集群需要更多的时间来处理?还是预期的结果?

kx5bkwkv

kx5bkwkv1#

在虚拟机中运行集群只会降低map reduce的速度(因为运行虚拟操作系统和多个hadoop示例的开销),特别是在内存不足并且必须使用来自主机操作系统的交换的情况下。
请记住,所有虚拟机都共享一个物理cpu,并且只应用于开发。

相关问题