bigdata—hadoop中输入的数据量有多大?

qxsslcnc  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(350)

我对大数据和hadoop还不熟悉。我想知道是名称节点,数据节点,二级名称节点,工作跟踪器,任务跟踪器不同的系统?如果我想处理1000 pb的数据,数据是如何划分的,谁在做这个任务,我应该在哪里输入1000 pb的数据。

t2a7ltrp

t2a7ltrp1#

namenode, dataNode, secondaryNameNode, jobTracker, taskTracker 都不一样 virtual machines ( JVM 你可以给他们打电话)。你可以在一台物理机器上启动它们( pseudo/local mode )或者你可以在不同的物理机器上启动它们( distributed mode ). 这些都在hadoop1中。 Hadoop2 引进了带有 YARN 在哪儿 jobTracker 以及 taskTracer 以更有效的方式移除 resourceManager , applicationManager , nodeManager 等,你可以找到更多的信息hadoop纱网站
数据存储在 HDFS ( Hadoop Distributed File System )储存在 blocks ,默认为 64MB . 当数据加载到 hdfs , hadoop 以定义的块大小在群集中平均分布数据。当一个作业运行时,代码被分发到集群中的节点,这样每个处理都发生在数据所在的位置,除了在集群中 shuffle 以及 sorting 案例。
我希望你一定知道怎么做 hadoop 以及 hdfs 作品。以下是一些链接供你开始
MapReduce编程
群集设置
hadoop命令

相关问题