有没有可能在单个节点上使用hadoop来获得更高的速度?

zkure5ic  于 2021-06-04  发布在  Hadoop
关注(0)|答案(3)|浏览(337)

我想处理一些像字数统计这样的大文件。
我只有一台8核128gb内存的工作站。
在hadoop上使用独立的、伪分布式的模式更好吗?还是不使用hadoop而研究并发性更好?
如果使用hadoop更好,是否有任何规则来决定配置,包括单个工作站上的Map器、还原器等的数量?
2014-03-02
以下是我的硬盘信息:
姓名maj:min rm 尺寸ro型安装点sdc 8:32 0 2.7t 0磁盘
├─sdc1 8:33 0 255m 0部分
├─sdc2 8:34 0 8g 0部分
├─sdc3 8:35 0 8g 0部分
├─sdc4 8:36 0 16g 0部分
│ └─md3 9:3 0 15.3g 0 raid1/├─sdc5 8:37 0 32g 0部分
│ └─md127 9:127 0 64g 0 raid5│ └─vg01划痕(dm-0)252:0 63.9g 0 lvm/局部/划痕├─sdc6 8:38 0 64g 0部分
├─sdc7 8:39 0 128g 0部分
├─sdc8 8:40 0 256g 0部分
├─sdc9 8:41 0 1t 0部分
│ └─md125 9:125 0 2t 0 raid5│ └─vg03数据(dm-1)252:1 0 4t 0 lvm/本地/货舱└─sdc10 8:42 0 1t 0部分
└─md126 9:126 0 2t 0 raid5└─vg03数据(dm-1)252:1 0 4t 0 lvm/local/cargobay sda 8:0 0 2.7t 0磁盘
├─sda1 8:1 0 255m 0部分
├─sda2 8:2 0 8g 0部分
├─sda3 8:3 0 8g 0部分
├─sda4 8:4 0 16g 0部分
│ └─md3 9:3 0 15.3g 0 raid1/├─sda5 8:5 0 32g 0部分
│ └─md127 9:127 0 64g 0 raid5│ └─vg01划痕(dm-0)252:0 63.9g 0 lvm/局部/划痕├─sda6 8:6 0 64g 0部分
├─sda7 8:7 0 128g 0部分
├─sda8:8 0 256g 0部分
├─sda9 8:9 0 1t 0部分
│ └─md125 9:125 0 2t 0 raid5│ └─vg03数据(dm-1)252:1 0 4t 0 lvm/本地/货舱└─sda10 8:10 0 1t 0部分
└─md126 9:126 0 2t 0 raid5└─vg03数据(dm-1)252:1 0 4t 0 lvm/local/cargobay sdb 8:16 0 2.7t 0磁盘
├─sdb1 8:17 0 255m 0部分
├─sdb2 8:18 0 8g 0部分
├─sdb3 8:19 0 8g 0部分
├─sdb4 8:20 0 16g 0部分
│ └─md3 9:3 0 15.3g 0 raid1/├─sdb5 8:21 0 32g 0部分
│ └─md127 9:127 0 64g 0 raid5│ └─vg01划痕(dm-0)252:0 63.9g 0 lvm/局部/划痕├─sdb6 8:22 0 64g 0部分
├─sdb7 8:23 0 128g 0部分
├─sdb8 8:24 0 256g 0部分
├─sdb9 8:25 0 1t 0部分
│ └─md125 9:125 0 2t 0 raid5│ └─vg03数据(dm-1)252:1 0 4t 0 lvm/本地/货舱└─sdb10 8:26 0 1t 0部分
└─md126 9:126 0 2t 0 raid5└─vg03数据(dm-1)252:1 0 4t 0 lvm/local/cargobay sr0 11:0 1 1024m 0 rom
非常感谢

siotufzp

siotufzp1#

hadoop可能会为您节省一些开发时间,因为您可以使用pig或sql(hive)之类的脚本来进行处理。但这绝对不是实现单节点并行化的最有效方法——从运行hadoop进程的所有开销开始,hadoop并行化是基于多进程的,而不是多线程的,大多数hadoop技术(不是全部)是面向磁盘的,而不是内存等。
hadoop是为解决大数据问题而设计的,而不是本地的单机问题

qhhrdooz

qhhrdooz2#

单节点集群上的hadoop不会提供真正的hadoop功能,因为您至少需要一个2-3系统的小网格来获得hadoop的真正功能。单节点hadoop集群仅适用于学习目的,但对于实时性,至少有一个由2-3个系统组成的网格。

qyswt5oh

qyswt5oh3#

在这台机器上使用至少8个硬盘作为hdfs之前,hadoop不会给您带来任何好处。

相关问题