A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始



      我现在有一台笔记本,配置是酷睿i5、4G内存、500G硬盘。很难想象自己的第一台电脑的配置是奔腾3、512M内存、20G硬盘。那时候,自己的20G硬盘还有很多空闲。现在,各种软件、电影、音乐、教学视频让我500G的硬盘空间也装不下了。互联网的发展,产生的数据越来越多,不仅包括结构化的可以存储在数据库中的数据,也包括网页、电子邮件、短信、微博、日志等半结构化、非结构化的数据。互联网上,每天推特发布消息约3.4亿条,新浪微博用户发博量超过1亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到10TB(1TB=1024GB)。这一切表明,大数据时代已经到来!

    什么是大数据哪?看一下大数据的4V特点吧。

    Volume容量大。只有几(十)GB的数据不能称为大数据,这样的数据在传统的RDBMS中就可以处理。当数据达到几百GB,甚至TB级别时,RDBMS甚至数据仓库就处理不了了。这就是大数据。

    Variety 类型多样。数据的异构(不同的数据结构)、多样也是大数据的特点,比如日志、文本、word、pdf、ppt、excel、jpg、gif、avi等各种图、文、音频、视频文件。这些文件类型是传统的RDBMS处理不了的,也没有办法检索、分析。

    Velocity 访问迅速。数据是企业的命脉,数据必须被快速处理,这正是传统的RDBMS的优势所在。但是在海量数据面前,RDBMS就无能为力了。

    Value 价值密度低。最有价值的数据已经被转换处理为结构化数据,存储在数据库、数据仓库中。对于海量的价值密度低的大数据,向来不是数据库关注的对象。但是海量的大数据并不是没有价值的,比如长尾理论、“啤酒与尿布”,都是基于大数据产生的商业价值。因此提炼大数据中的商业价值是一个企业新的增长点,被越来越多的企业重视。

    上面的4V带来了大数据的难以存储、难以管理、难以利用的难题。怎么办?hadoop出场了!

    数据是存储在磁盘介质中的,海量的数据必然存储在海量的磁盘中。这么多的磁盘已经超出了Windows、Linux等操作系统的文件管理能力,因此产生了分布式的文件管理系统,即DFS(Distributed File System)。分布式文件管理系统是用来管理分布在众多磁盘中的数据。分布式文件系统需要考虑分布式的读、写、检索、数据一致性、磁盘故障、冗余等问题。hadoop的hdfs就是一个分布式的dfs,专门用于在分散的磁盘中存储海量数据。

    数据被存储,那是档案馆干的事情,这可不是企业想干的事情。数据只有被利用,产生出商业价值才是有意义的。那么就需要对大数据进行检索、查询,做各种变换,这统统称之为“计算”。最常见的计算就是去重、排序。有人想,这有什么难事,找台高性能的服务器跑就行了。其实没那么简单,因为磁盘的寻址时间、磁盘I/O、网络I/O,相对于大数据而言,是非常大的开销。我们想了个办法:把海量数据分成小块,让一台机器处理一小块数据,所有的机器同时工作。最后把结果汇总起来。这就是“并行计算”。hadoop中的MapReduce就是专门用来做分布式计算的并行处理框架。
看到了吧,hadoop就是用来解决大数据的存储和计算的。

    现在,国际互联网巨头,如谷歌、雅虎、推特、脸谱等都已经使用大数据。其中谷歌就是鼻祖。在国内,hadoop的应用也越来越多,互联网公司如百度、淘宝、腾讯、新浪、搜狐早在多年前就已经在处理大数据。传统的行业,如电信、金融、银行等也开始重视大数据的商业价值。

    这么多的企业在使用大数据,那么对大数据人才的渴求越来越强烈,但是懂hadoop的人才却非常少。因此这类人的薪水是相当高的。下图是我在前程无忧招聘网站查询hadoop职位时得到的搜索结果,可以看到大部分职位的月薪都在10k以上。月薪超过20k的职位也有很大比重。

   

    图是我对查询结果的一个截图,可以看到hadoop工程师的待遇还是很高的,几乎都在年薪20W以上。


    在hadoop人才稀缺的时候,您掌握了这门技术,想一想那是什么结果?怎么样,心里乐了吧?


    同学们,还等什么,赶快学习hadoop课程吧!


  注:本文转自传智播客、黑马程序员hadoop讲师吴超老师blog

69 个回复

正序浏览
hadoop有点深
回复 使用道具 举报
一直对"云"的认识有点晕,大学看的第一本云计算的书 开头先从算盘讲起,然后再讲分布式计算,发展网格计算,云计算,我在不清楚云计算与集群计算的区别的时候,问了一个哈工大毕业的学生,它是软件工程的,他告诉我是世界上所有的计算机集群,我以目前的目光看,感觉云计算就是喊的比较厉害,而实在的却很难,很多问题需要解决,的确如果有一天真能集群了,那对于我所向往的专业中的课题,进行胰岛素分子的模拟的时候,我们将不再需要租用国家的超级计算机进行计算了,而是下达计算任务,由控制器端向各个子计算节点下达任务,这样的目标要是实现了,我们的药物研发,药物模拟设计不知道能加速多少倍,而且如果能快速计算出来靶向分子的结合位点,那么世界化工业,药物生产业都不知道能加速多少,然而这些想法在目前的实际看来的确太空虚了,我也是想学这个方面的知识,如果硬件平台真能整合到一块,然后能够编写控制端程序,想想也是件很惬意的事情~~~~~~
回复 使用道具 举报
云技术,是现在最新的技术啊,了解一下,挺好的
回复 使用道具 举报
哈哈, 有嘛呢 !     什么不会学什么呗 !    加油  
回复 使用道具 举报
Sword 金牌黑马 2013-4-25 01:54:00
65#
老师,有一点我不明白,hadoop不是新兴的技术吗?那些公司怎么还要那么多年的工作经验?是软件开发的经验还是hadoop的经验呢?
回复 使用道具 举报
wuddd 高级黑马 2013-4-24 22:55:06
64#
weiweihongyan 发表于 2013-4-23 10:29
javaEE和物联云的课程体系说明和介绍 什么时候出来?

这个需要咨询网站客服,我只负责讲hadoop
回复 使用道具 举报
javaEE和物联云的课程体系说明和介绍 什么时候出来?
回复 使用道具 举报
弄得我不知道怎么办了
回复 使用道具 举报
哦哦,大数据时代啊
回复 使用道具 举报
怎么高的工资啊
回复 使用道具 举报
吴超老师 发表于 2013-4-6 06:40
这个需要咨询网站客服

谢了哈 老师
回复 使用道具 举报
顶个贴~~
回复 使用道具 举报
顶起来啊  哈哈哈哈 加油啊 同志们
回复 使用道具 举报
唐林渊 发表于 2013-4-3 19:39
请问  hadoop是单独的课程吗? 现在开设这个班级了吗? 什么时候可以报名? 对基础有什么要求? ...

前三个问题需要咨询网站客服。基础需要掌握javaSE、SQL。
回复 使用道具 举报
lyg2013 发表于 2013-4-5 08:35
hadoop这个课程在整个学习阶段大约占到多长时间?

这个需要咨询网站客服
回复 使用道具 举报
qq619669842 发表于 2013-4-3 14:48
进javaee和物联云班只有java基础可以么?还要自学物联云的基础吗?

有java基础可以进。javaee和hadoop是并行的两个方向,没有前后顺序关系。
回复 使用道具 举报
我是一个在校生,自认为编程学的不错,在学校和各种竞赛中表现还行。但最近听了黑马的教学视频,原来有些知识不只是这样,也可以那样……黑马,这个暑假我回来的!!!!!!!
回复 使用道具 举报

hadoop这个课程在整个学习阶段大约占到多长时间?
回复 使用道具 举报
不能只学云,要全面的学习
回复 使用道具 举报
董霁辉 发表于 2013-4-4 18:54
谢谢,学完云3在学hadoop 来得及吗

从技术储备讲,肯定没问题。如果是课程安排等,可以问问班主任
回复 使用道具 举报
1234下一页
您需要登录后才可以回帖 登录 | 加入黑马