黑马程序员技术交流社区

标题: 【郑州校区】大数据离线阶段Day5之Apache Hive [打印本页]

作者: 我是楠楠 时间: 2018-9-7 15:14
标题: 【郑州校区】大数据离线阶段Day5之Apache Hive

【郑州校区】大数据离线阶段Day5之Apache Hive

1． Hive 简介
1.1． 什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
本质是将SQL转换为MapReduce程序。
主要用途：用来做离线数据分析，比直接用MapReduce开发效率更高。

图片1.png (21.41 KB, 下载次数: 7)

下载附件

2018-9-7 15:13 上传

1.2． 为什么使用Hive直接使用Hadoop MapReduce处理数据所面临的问题：
人员学习成本太高
MapReduce实现复杂查询逻辑开发难度太大
使用Hive ：
操作接口采用类SQL语法，提供快速开发的能力
避免了去写MapReduce，减少开发人员的学习成本
功能扩展很方便
2． Hive 架构2.1． Hive架构图

图片2.png (48.28 KB, 下载次数: 5)

下载附件

2018-9-7 15:13 上传

2.2． Hive组件用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。
元数据存储：通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。
2.3． Hive与Hadoop的关系Hive利用HDFS存储数据，利用MapReduce查询分析数据。

3． Hive与传统数据库对比hive用于海量数据的离线数据分析。
hive具有sql数据库的外表，但应用场景完全不同，hive只适合用来做批量数据统计分析。
更直观的对比请看下面这幅图：

图片3.png (13.25 KB, 下载次数: 12)

下载附件

2018-9-7 15:14 上传

4． Hive数据模型Hive中所有的数据都存储在HDFS中，没有专门的数据存储格式
在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。
Hive中包含以下数据模型：
db：在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：数据存放位置可以在HDFS任意指定路径
partition：在hdfs中表现为table目录下的子目录
bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

5． Hive 安装部署Hive安装前需要安装好JDK和Hadoop。配置好环境变量。
根据元数据存储的介质不同，分为下面两个版本，其中derby属于内嵌模式。实际生产环境中则使用mysql来进行元数据的存储。
内置derby版：
解压hive安装包
bin/hive 启动即可使用
缺点：不同路径启动hive，每一个hive拥有一套自己的元数据，无法共享
mysql版：
解压、修改配置文件
vi conf/hive-site.xml
配置Mysql元数据库信息

详细安装步骤查看《Hive安装手册》
传智播客·黑马程序员郑州校区地址
河南省郑州市高新区长椿路11号大学科技园（西区）东门8号楼三层
联系电话 0371-56061160/61/62
来校路线地铁一号线梧桐街站A口出

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2