A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© zz00 初级黑马   /  2019-9-28 14:47  /  1183 人查看  /  2 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

01--工作流调度--概念、产生背景

- 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。
- 个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处理、数据分析、数据展示等。各个模块单元之间存在时间先后依赖关系,且存在着周期性重复。为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。
- azkaban、oozie

02--azkaban--介绍、架构、部署模式

- Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
- azkaban的特点
  - · 提供功能清晰,简单易用的Web UI界面
    · 提供job配置文件快速建立任务和任务之间的依赖关系
    · 提供模块化和可插拔的插件机制,原生支持command、Java、Hive、Pig、Hadoop
    基于Java开发,代码结构清晰,易于二次开发
- azkaban的架构
  - mysql服务器: 存储元数据,如项目名称、项目描述、项目权限、任务状态、SLA规则等
  - AzkabanWebServer:对外提供web服务,使用户可以通过web页面管理。职责包括项目管理、权限授权、任务调度、监控executor。
  - AzkabanExecutorServer:负责具体的工作流的提交、执行。

- impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。
- impala是基于hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点。

1. impala与hive的关系

- impala是基于hive的大数据分析查询引擎,直接使用hive的元数据库metadata,意味着impala元数据都存储在hive的metastore当中,并且impala兼容hive的绝大多数sql语法。所以需要安装impala的话,必须先安装hive,保证hive安装成功,并且还需要启动hive的metastore服务。

1. impala与hive的区别

- Impala跟Hive最大的优化区别在于:没有使用 MapReduce进行并行计算,虽然MapReduce是非常好的并行计算框架,但它更多的面向批处理模式,而不是面向交互式的SQL执行。与 MapReduce相比,Impala把整个查询分成一执行计划树,而不是一连串的MapReduce任务,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。
- hive/sparksql(大部分公司会用到)
- impala、prosto、druid、kylin(现阶段的流量小生)

2 个回复

正序浏览
面对生活的选择,可怕的不是“大环境”,而是我们自己。勇于走出自己的舒适圈,勇于挑战自己,加油……
回复 使用道具 举报
能坚持学习的人都是最棒的。
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马