[AI大数据开发] 学习知识

01--工作流调度--概念、产生背景

- 工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。
- 个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的：数据采集、数据预处理、数据分析、数据展示等。各个模块单元之间存在时间先后依赖关系，且存在着周期性重复。为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。
- azkaban、oozie

02--azkaban--介绍、架构、部署模式

- Azkaban是由linkedin（领英）公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。
- azkaban的特点
  - · 提供功能清晰，简单易用的Web UI界面
· 提供job配置文件快速建立任务和任务之间的依赖关系
· 提供模块化和可插拔的插件机制，原生支持command、Java、Hive、Pig、Hadoop
基于Java开发，代码结构清晰，易于二次开发
- azkaban的架构
  - mysql服务器: 存储元数据，如项目名称、项目描述、项目权限、任务状态、SLA规则等
  - AzkabanWebServer:对外提供web服务，使用户可以通过web页面管理。职责包括项目管理、权限授权、任务调度、监控executor。
  - AzkabanExecutorServer:负责具体的工作流的提交、执行。

- impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具。
- impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。

1. impala与hive的关系

- impala是基于hive的大数据分析查询引擎，直接使用hive的元数据库metadata，意味着impala元数据都存储在hive的metastore当中，并且impala兼容hive的绝大多数sql语法。所以需要安装impala的话，必须先安装hive，保证hive安装成功，并且还需要启动hive的metastore服务。

1. impala与hive的区别

- Impala跟Hive最大的优化区别在于：没有使用 MapReduce进行并行计算，虽然MapReduce是非常好的并行计算框架，但它更多的面向批处理模式，而不是面向交互式的SQL执行。与 MapReduce相比，Impala把整个查询分成一执行计划树，而不是一连串的MapReduce任务，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少的了把中间结果写入磁盘的步骤，再从磁盘读取数据的开销。
- hive/sparksql（大部分公司会用到）
- impala、prosto、druid、kylin（现阶段的流量小生）

柠檬leung不酸 · 柠檬leung不酸

能坚持学习的人都是最棒的。

柠檬leung不酸 · 柠檬leung不酸

面对生活的选择，可怕的不是“大环境”，而是我们自己。勇于走出自己的舒适圈，勇于挑战自己，加油……

帐号		自动登录	找回密码
密码			加入黑马

[AI大数据开发] 学习知识

2 个回复

浏览过的版块

新人专属

QQ达人