A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

hadoop是一个由Apache基金会所发布的用于大规模集群上的分布式系统并行编程基础框架。目前已经是大数据领域最流行的开发架构。并且已经从HDFSMapReduceHbase三大核心组件成长为一个具有60多个组件构成的庞大生态,可以满足大数据采集、存储、开发、分析、算法、建模等方方面面。
       hadoop的使用版本中,目前除Apache的版本,hadoop还有ClouderaHortonworks公司的两大发行版,并且两家公司还有各自的开分的相关生态组件、管理工具。便于Hadoop集群的供应、管理和监控。
一.         两开发行版
1    Cloudera
1Cloudera Manager管理工具:收费,稳定性高、集成性差、hadoop版本更新慢、不支持二次开发、安装复杂。,
CDH发行版:部分开源,基本上支持所有组件,只依赖cdh自已的版本
2    Hortonworks
1 Ambari管理工具:免费,稳定性相对不高,集成性好,hadoop版本更新快,支持二次开发、安装简便。
2HDP发行版:完全开源,基本上支持所有组件,直接依赖apache hadoop
     两个发行版,在个别组件是不兼容的,比如安全组件等。另外,现在这两个公司已经合并了,意味着将来在组件等方面会有所融合。
二.         Hadoop常用组件简介
1     核心组件
1HDFS:分布式文件系统(HadoopDistributed File System),是一个高度容错性的系统,适合部署在廉价的机器上。能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 允许您连接多个集群中包含的节点,那些集群上分布着一些数据文件。然后可以将那些数据文件作为一个无缝文件系统来进行访问和存储。
2Yarn:(YetAnotherResource Negotiator)也被称为MapReduce2.0是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面提供支持。
3MapReduce:是面向大数据并行处理的计算模型、框架和平台,用于大规模数据集(大于1TB)的并行运算。"Map(映射)""Reduce(归约)",是其主要思想。其实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。
2     数据采集组件
1Apache Flume:是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据;并提供对数据进行简单处理,写到各种数据存储系统中,如HDFSHBasekafka
2Apache Sqoop:是一个用来将HadoopRDBMS中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop底层是通过MapReduce作业并行读取数据库的。
3Apache Kafka:是一个流处理平台,为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。
4Apache Nifi:是为了实现系统间数据流的自动化而构建的数据对接的集成框架。但我们在此处使用它来表示系统之间的自动和管理信息流。这个问题空间一直存在,因为企业有多个系统,其中一些系统创建数据,一些系统消耗数据。
3     数据安全组件
Apache Sentry:是一个针对存储在 Hadoop 集群中的数据和元数据提供加强的细粒度的基于角色的授权系统,可以通过验证的用户提供数据访问权限。
Apache Ranger:是一个集中式框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于 Apache Hadoop 生态圈的所有数据权限。可以支持hive的列级授权,支持审计。
4    数据存储
1Apache HBase:是一个参考了谷歌的BigTable建模的运行在HDFS文件系统上的面向列存储的开源非关系型分布式存储系统(NoSQL),可以容错地存储海量稀疏的数据。
2Apache Kudu:是一个面向列存储的存储系统,可以同时提供低延迟的随机读写和高效的数据分析能力,支持水平扩展,使用Raft协议进行一致性保证。是对HBase能力的补充。
3Apache Parquet:是面向分析型业务的列式存储格式,具有更高的存储性能和资源利用率,可以适配多种计算框架。
5    服务协作
1Apache Zoomkeeper:是一种分布式协调服务,为大型分布式计算提供分布式配置服务、同步服务和命名注册。
6    工作流与调度
1Apache Oozie:是一个基于服务器的工作流程 调度系统,用于管理Hadoop作业, MapReducePig Jobs的任务调度与协调。
2Linkedin Azkaban:是一个分布式工作流管理器,运行Hadoop作业用以解决Hadoop作业依赖性问题。并提供易于使用的Web用户界面来维护和跟踪工作流程。
3Apache Falcon:是一个在Hadoop中数据生命周期的管理框架,提供了一个用于治理和编排 Hadoop 内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关键性的管控框架。

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马