黑马程序员技术交流社区

标题: 学习心得 [打印本页]

作者: hihop    时间: 2019-12-28 20:57
标题: 学习心得
1.1背景
“大数据“,近几年来最火的词之一。虽然大数据这个词的正式产生也就10年左右,但对大数据分析却早就有之。早在互联网初期,就有很多公司通过计算机技术对大量的分析处理,比如各个浏览引擎。然而,大数据的真正提出却是源自2008.09.03 《Nature》专刊的一篇论文,紧接着,产业界也不断跟进,麦肯锡于2011.06 发布麦肯锡全球研究院报告,标志着大数据在产业界的真正兴起,随着白宫发布大数据研发法案,政府开始加入大数据的角逐。
1.2定义
既然大数据这么热,我们有必要了解一下大数据究竟是什么。我们经常用4个V来定义大数据:容量、多样性、吞吐量、价值。即大数据必须是数量大(至少T、P级别),来源多,大部分为非结构化,且进出分析系统的速度快,并以获取价值为目的的数据。

1.3学习历程
(1)了解Hadoop生态系统,了解一下生态系统中各模块的作用
(2)了解Spark,了解Spark比MapReduce的优势,学习RDD编程
(3)电脑安装虚拟机搭个Hadoop、Spark集群,配置Spark开发环境(SBT),运行一些demo例程,典型如WordCount
(4)研究一下MapReduce的WordCount和Spark的WorkCount的代码,通过对比加深理解
(5)参考学习案例,了解大数据应用,熟悉HBase,Hive,Sqoop等






欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2