A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

hihop

初级黑马

  • 黑马币:6

  • 帖子:2

  • 精华:0

© hihop 初级黑马   /  2019-12-28 20:57  /  1068 人查看  /  0 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

1.1背景
“大数据“,近几年来最火的词之一。虽然大数据这个词的正式产生也就10年左右,但对大数据分析却早就有之。早在互联网初期,就有很多公司通过计算机技术对大量的分析处理,比如各个浏览引擎。然而,大数据的真正提出却是源自2008.09.03 《Nature》专刊的一篇论文,紧接着,产业界也不断跟进,麦肯锡于2011.06 发布麦肯锡全球研究院报告,标志着大数据在产业界的真正兴起,随着白宫发布大数据研发法案,政府开始加入大数据的角逐。
1.2定义
既然大数据这么热,我们有必要了解一下大数据究竟是什么。我们经常用4个V来定义大数据:容量、多样性、吞吐量、价值。即大数据必须是数量大(至少T、P级别),来源多,大部分为非结构化,且进出分析系统的速度快,并以获取价值为目的的数据。

1.3学习历程
(1)了解Hadoop生态系统,了解一下生态系统中各模块的作用
(2)了解Spark,了解Spark比MapReduce的优势,学习RDD编程
(3)电脑安装虚拟机搭个Hadoop、Spark集群,配置Spark开发环境(SBT),运行一些demo例程,典型如WordCount
(4)研究一下MapReduce的WordCount和Spark的WorkCount的代码,通过对比加深理解
(5)参考学习案例,了解大数据应用,熟悉HBase,Hive,Sqoop等

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马