A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 616719569 初级黑马   /  2019-12-24 16:35  /  1048 人查看  /  0 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 616719569 于 2019-12-28 19:37 编辑

1.Hadoop
基于google的论文的开源大数据框架实现,这是最早的大数据处理框架,后续hdfs、hive、hbase都是围绕Hadoop建立起来的社区,先从Hadoop入手,深入学习并尝试运用它处理一定规模的数据集,等你能比较熟练的运用Hadoop生态的几个框架进行数据处理的时候,你就基本算是入门大数据了。
2.Spark
基于内存的大数据处理框架,使用有向无环图RDD为数据抽象单位,提供比Hadoop的MapReduce更加丰富的数据操作,并由于基于内存使得运算速度上升了几个数量级,hadoop适合做非实时计算的离线计算,而spark则更适合做实时数据处理系统。
学习并运用上面两个主流的大数据处理框架处理数据之后基本上可以说是对大数据入门了,当然还有其他的一些框架有时间也可以学习一下,比如最近风头很盛的Flink(对标spark)。
框架上手后还只是停留在『会』处理较大规模的数据这个层面上,之后就需要更深入的学习了,还是从框架入手,需要深入了解Hadoop的MapReduce原理、shuffle的完整过程以及优化点等等,相应的spark里面的rdd各类数据转化的过程和原理以及优化点等等,这时候建议从阅读源码开始:
搭建Hadoop源码阅读环境
搭建 Spark 源码研读和代码调试的开发环境
这是要对整个大数据处理的过程有一个总体的认知,为你后续优化数据处理打好基础,当然这期间最好可以学习Hadoop&Spark生态中的其他框架入hbase、spark streaming等,加强个人的大数据技术栈。

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马