【资源教程】云计算大数据Hive教程

咿呀咿呀若

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

播妞本次分享的是云计算大数据Hive教程，感兴趣的同学切勿错过~

本教程课堂重点：

1、hive 建立一张表跟已经存在的结构化的数据文件产生映射关系
映射成功之后，就可以通过写sql来分析这结构化的数据  避免了写mr程序的麻烦

2、数据库  ---》  /user/hive/warehouse 下的一个文件夹对应
表    ---》  数据库文件夹下面的子文件夹 /user/hive/warehouse/itcast.db/t_t1
表的数据位置目前不能随便存放  一定要在指定的数据库表的文件夹下面
建立表的时候可能还需要指定分隔符否则有可能映射不成功

3、建表的时候一定要根据结构化数据文件的分隔符类型  指定分隔符
建表的字段个数和字段类型要跟结构化数据中的个数类型一致
分隔符一般使用内置的来指定  ROW FORMAT DELIMITED 分割字段  还是分割集合等等

4、分区表字段不能够在表中已经存在
分区字段是一个虚拟的字段  不存放任何数据
分区字段的数据来自于装载分区表数据的时候指定的
分区表的字段  在hdfs上的效果就是在建立表的文件夹下面又创建了子文件
这样的目的把数据的划分更加细致  减少了查询时候全表扫描的成本只需要按照指定的分区扫描数据并显示结果即可

5、分桶表创建之前需要开启分桶功能
分桶表（分簇表）创建的时候分桶字段必须是表中已经存储（存在）的字段
也就是说你要按照表中那个字段进行分开
针对分桶表的数据导入：load data方式不能够导成分桶表的数据  没有分桶效果
原因在于load  本质上相当于  hive 去帮我们执行 hadoop fs -put

分桶表的数据采用 insert+select 插入的数据来自于查询结果（查询时候执行了mr程序）
对应mr当中的partitioner
默认分桶规则按照你指定的分桶字段clustered by哈希值 & 分桶的个数 set mapreduce.job.reduces=？

分桶表也是把表所映射的结构话数据文件分成更细致的部分  但是更多的是用在join查询提高效率之上
只需要把jion的字段在各自表当中进行分桶操作即可（资料链接可添加3495414535）

网盘资料：

资料下载（网盘链接已添加回帖可见）

游客，如果您要查看本帖隐藏内容请回复

无峰 · 无峰

谢谢分享

Strives · Strives

66666666666666666

文艺复兴 · 文艺复兴

牛鼻66666666666666666666666

geli2787878 · geli2787878

不错不错不错

wanglittle · wanglittle

谢谢分享

yuncheng · yuncheng

谢谢分享

Rollback · Rollback

666666666666666666666

user_01 · user_01

感谢分享

不言 · 不言

赞一个,希望学习完成后有新的收获

q15227669324 · q15227669324

谢谢分享

卓瑶 · 卓瑶

顶顶顶顶顶顶顶顶顶

zhuhsh · zhuhsh

谢谢分享，好好学习下

火雷风神 · 火雷风神

方法方法付付付付付付付付付付付付付付

会搬砖的程序员 · 会搬砖的程序员

还可以哦

一只小小鸟 · 一只小小鸟

666666666666666666666666666666666666666666666

番茄炒鸡蛋 · 番茄炒鸡蛋

学习一下

Yang656520 · Yang656520

已收藏，谢谢啦！

一叶知秋秋 · 一叶知秋秋

谢谢分享

番茄炒鸡蛋 · 番茄炒鸡蛋

学习一下！～

帐号		自动登录	找回密码
密码			加入黑马

【资源教程】云计算大数据Hive教程

评分

233 个回复

浏览过的版块

QQ达人

优秀作者

黑马土豪金

新人专属

回帖达人

黑马签到小蜜蜂