① Hive 数据管理、内外表、安装模式操作
② Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单
③ Hive:多种方式建表,需求操作
④ Hive:分区原因、创建分区、静态分区 、动态分区
⑤ Hive:分桶的简介、原理、应用、创建
⑥ Hive:优化 Reduce,查询过程;判断数据倾斜,MAPJOIN
Hive的表= HDFS的目录
Hive数据=HDFS文件
在设置 hive-site.xml
配置了原数据的存储位置。
什么叫做 Hive的表= HDFS的目录?
进入hive,输入命令显示数据库,show databases;
在HDFS查询下元数据存储位置:fs -ls /user/hive/warehouse
可以看出,在Hive数据库的sptest,是HDFS的一个目录sptest.db 。
sptest的表 person,也是一个目录,里面的数据是HDFS的文件。
Hive的create创建表的时候,选择的创建方式:
特点:
查询表是内部表还是外部表。例如:show create table person;
CREATE TABLE `article_as`(
`sentence` string);
load data local inpath '/usr/hadoop/badou/The_Man_of_Property.txt' overwrite into table article_as;
select * from article_as limit 5;
Hive已经有article_as,再看看HDSFhadoop fs -ls /user/hive/warehouse/sptest.db/a*
当我们把article_as表删除,那HDFS的文件是否也同样删除呢?
drop table article_as;
desc article_as;
hadoop fs -ls /user/hive/warehouse/sptest.db
在删除内部表的时候,Hive将会把属于表的元数据和数据全部删掉。
CREATE EXTERNAL TABLE `article_as`(
`sentence` string);
load data local inpath '/usr/hadoop/badou/The_Man_of_Property.txt' overwrite into table article_as;
select * from article_as limit 1;
Hive已经有article_as,再看看HDSFhadoop fs -ls /user/hive/warehouse/sptest.db/a*
当我们把article_as表删除,那HDFS的文件是否也同样删除呢?
drop table article_as;
desc article_as;
hadoop fs -ls /user/hive/warehouse/sptest.db/a*
删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除。
创建一个数据库 badou,插入文件The_Man_of_Property.txt 作为 article_as。
create database badou;
use badou;
CREATE TABLE `article_as`(
`sentence` string);
load data local inpath '/usr/hadoop/badou/The_Man_of_Property.txt' overwrite into table article_as;
select * from article_as limit 2;
select word, count(*) AS cnt from (select explode(split(sentence,' ')) word
from article_as) t
group by word limit 10
内置的Derby主要问题是并发性能很差,可以理解为单线程操作。
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://blog.csdn.net/weixin_44775255/article/details/121170859
内容来源于网络,如有侵权,请联系作者删除!