多节点配置单元表-处理

8i9zcol2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(315)

我对Hive有概念上的怀疑。我知道hive是一个运行在hadoop之上的数据仓库工具。我们知道hadoop有一个分布式文件系统hdfs。
假设我有一个主人和三个奴隶。现在,我已经在hiveql中创建了一个表employees。这张table太大了,不能放在一台机器里。因此,它必须存储在所有四台机器中。如何加载这些数据。应该手动完成。或者我键入“加载数据…”在主机中,它将自动分配给所有机器。

piwo6bdm

piwo6bdm1#

hive使用hdfs作为数据仓库来存储数据。因此,hdfs概念被用于数据存储。
hdfs具有主/从体系结构。hdfs集群由一个namenode组成,它是一个主服务器,管理文件系统名称空间并控制客户端对文件的访问。此外,还有许多datanode,通常集群中每个节点一个,它们管理连接到它们运行的节点的存储。hdfs公开了一个文件系统名称空间,并允许用户数据存储在文件中。
在内部,一个文件被分割成一个或多个块,这些块存储在一组数据节点中。namenode执行文件系统名称空间操作,如打开、关闭和重命名文件和目录。它还确定块到数据节点的Map。datanodes负责处理来自文件系统客户机的读写请求。datanode还根据namenode发出的指令执行块创建、删除和复制。
请参考hdfs架构以了解更多详细信息。

相关问题