我对大数据和hadoop还不熟悉。我想知道是名称节点,数据节点,二级名称节点,工作跟踪器,任务跟踪器不同的系统?如果我想处理1000 pb的数据,数据是如何划分的,谁在做这个任务,我应该在哪里输入1000 pb的数据。
t2a7ltrp1#
对 namenode, dataNode, secondaryNameNode, jobTracker, taskTracker 都不一样 virtual machines ( JVM 你可以给他们打电话)。你可以在一台物理机器上启动它们( pseudo/local mode )或者你可以在不同的物理机器上启动它们( distributed mode ). 这些都在hadoop1中。 Hadoop2 引进了带有 YARN 在哪儿 jobTracker 以及 taskTracer 以更有效的方式移除 resourceManager , applicationManager , nodeManager 等,你可以找到更多的信息hadoop纱网站数据存储在 HDFS ( Hadoop Distributed File System )储存在 blocks ,默认为 64MB . 当数据加载到 hdfs , hadoop 以定义的块大小在群集中平均分布数据。当一个作业运行时,代码被分发到集群中的节点,这样每个处理都发生在数据所在的位置,除了在集群中 shuffle 以及 sorting 案例。我希望你一定知道怎么做 hadoop 以及 hdfs 作品。以下是一些链接供你开始MapReduce编程群集设置hadoop命令
namenode, dataNode, secondaryNameNode, jobTracker, taskTracker
virtual machines
JVM
pseudo/local mode
distributed mode
Hadoop2
YARN
jobTracker
taskTracer
resourceManager
applicationManager
nodeManager
HDFS
Hadoop Distributed File System
blocks
64MB
hdfs
hadoop
shuffle
sorting
1条答案
按热度按时间t2a7ltrp1#
对
namenode, dataNode, secondaryNameNode, jobTracker, taskTracker
都不一样virtual machines
(JVM
你可以给他们打电话)。你可以在一台物理机器上启动它们(pseudo/local mode
)或者你可以在不同的物理机器上启动它们(distributed mode
). 这些都在hadoop1中。Hadoop2
引进了带有YARN
在哪儿jobTracker
以及taskTracer
以更有效的方式移除resourceManager
,applicationManager
,nodeManager
等,你可以找到更多的信息hadoop纱网站数据存储在
HDFS
(Hadoop Distributed File System
)储存在blocks
,默认为64MB
. 当数据加载到hdfs
,hadoop
以定义的块大小在群集中平均分布数据。当一个作业运行时,代码被分发到集群中的节点,这样每个处理都发生在数据所在的位置,除了在集群中shuffle
以及sorting
案例。我希望你一定知道怎么做
hadoop
以及hdfs
作品。以下是一些链接供你开始MapReduce编程
群集设置
hadoop命令