黑马程序员技术交流社区

标题: hadoop中最核心的东西，你能看懂吗 [打印本页]

作者: wuddd 时间: 2013-4-29 00:29
标题: hadoop中最核心的东西，你能看懂吗
本帖最后由吴超老师于 2013-4-29 00:37 编辑

hadoop是做大数据的分布式存储与计算，“存储”相对较简单；复杂的是“计算”，即MapReduce。因为这里的“计算”是分布式的，理解起来和原来我们课程中的思路不一样。

我在一篇帖子中讲了下Map、Reduce到底是什么。零基础的学员，看了后应该有个感性的认识。

今天稍微深入的讲一下MapReduce计算的核心内容。所谓核心内容，是因为理解了它，就可以理解如何写MapReduce算法。如果不理解，你只能看懂书上是这么写的，不明白为什么，自己也不会写！今天我就是来答疑解惑的。

不废话，看下文：

这张图(神啊，请原谅我拙劣的画图水平吧)就是MapReduce算法的整个流程，包括五个阶段，按照从上到下的顺序依次执行，数据也是按照这个方向传递。我下面一步步讲述。

既然谈到算法，那么就有输入和输出。输入作为流程的开始，输出作为流程的结束。第一阶段就是输入，第五阶段就是输出部分。以下只看第二、三、四阶段的内容。

第二阶段，是我们要写的一个类，就是自定义的Mapper类，这个类继承自框架的某个包路径下的Mapper类，我们要做的是覆盖里面的mapper方法。关键之处就是要覆盖的这个mapper方法。这个方法的参数负责接收输入数据，即图中的k1和v1(分别什么含义不要深究)；返回值表示输出，即图中的k2和v2(分别什么含义不要深究)。说到这里，只需要知道，负责输入的是k1、v1，负责输出的是k2、v2。那么，我们覆盖mapper方法时，要写的代码就是如何把k1、v1转换为k2、v2。你就简单的理解成我们平时写的有形参、返回值的方法。如果能听懂我说的这些，那我就讲清楚了。关于k1、v1、k2、v2不需要了解含义，只知道负责输入和输出就可以了，理解以下内容时也是一样。

第三阶段，是shuffer过程，“过程”指的是很多代码很多代码在执行。那么，shuffle过程到底干了什么哪？现在简单的讲，shuffle会把阶段二中输出进行一些列处理，再送到阶段三，成为阶段三的输入。理解到这里就够了。这个过程是分布式的，是框架内部做的，我们程序员没有办法干涉！

第四阶段，是我们要写的一个类，就是自定义的Reducer类，这个类继承自框架的某个包路径下的Reducer类，我们要做的是覆盖里面的reduce方法。关键之处就是要覆盖的这个reduce方法。这个方法的参数k2、list(v2)负责接收shuffle处理的结果，返回值是k3、v3。我们要做的是自己写代码如何把k2、list(v2)转化成k3、v3。

看到这里，大家注意到没有，第三阶段中shuffle过程接收到的是k2、v2，输出的却是k2、list(v2)，也就是把具有相同k2的所有v2进行了一次合并，放到了一个list中。这就是shuffle过程的归并逻辑，也就是框架自己带的功能。目前不要去研究shuffle过程，理解到这里就足够了。

第四阶段的k3、v3其实就是输出的内容了，也就是计算的结果。

通过上面的讲解，大家可以看到，程序员要做的事情就是覆盖了map方法和reduce方法。通过覆盖这两个方法，把阶段一的输入变成了阶段五的输出。换句话说，通过覆盖这两个方法，把k1、v2(来自于输入)变成了k3、v3(走到了输出部分)。继续跟着我的思路走，输入的内容肯定是我们已知的文件，我们知道什么格式、什么内容；输出的文件是什么格式也知道，只是不知道输出的具体内容是什么而已，对吧！换句话说，即k1、v1、k3、v3是已知的，我们程序员要做的是实现k2、v2。说到这里，有同学想：知道输入和输出，求中间过程，写一个方法不就行了吗？为什么要写map、reduce两个方法？？？这就是框架的精华所在、精髓所在！！！写这个框架的人肯定比我们聪明，我们的这个想法他肯定想到了，为什么框架是现在的样子，有什么好处，怎么运用，这都是要在课堂中讲解的。

对于零基础的同学，只需要能看懂我画的这个流程，知道MapReduce大概这个样子就行了，这就是这篇帖子的目的。不要去深究里面的细节，毕竟咱们都是零基础。

来，同学们，告诉我，能看明白吗？如果不明白，请跟帖，我会一一解答！

作者: Gaara 时间: 2013-4-29 00:32
顶下老师这么晚还在

作者: wuddd 时间: 2013-4-29 00:34

张文彬发表于 2013-4-29 00:32
顶下老师这么晚还在

这一周一直在想如何写一篇关于MapReduce核心的适合零基础同学的帖子，今天突然灵感来了，呵呵

作者: HM周磊 时间: 2013-4-29 00:36
好吧，露个脸，潜水太久~~

作者: 曹睿翔 时间: 2013-4-29 01:02
本帖最后由曹睿翔于 2013-4-29 01:25 编辑

基本明白，不深究，占个楼说说我的理解

输入数据
------>实现对传入数据一次封装，并输出（覆盖一个方法来实现）
------->shuffle负责整理数据并输出（过程一定很有意思、分布式我喜欢，归并从字面上还算好理解点）
----->把shuffle输出的结果再包装
----->输出

Mapper应该是对输入的列表元素进行迭代，写代码去处理元素（不知道是不是加标记、分类好方便下一步shuffle进行整理）
reduce不太理解怎么处理 shuffle 传出的 list(v2)

其实我还想问的是，hadoop处理的一般是什么信息？对信息有没有分类然后用相应的处理方式？非关系型数据库有什么东西能替代关系型数据库中映射，高效处理数据之间的关系？问的问题太宽泛了，我有空百度吧，老师教教怎么搜就行啦

吴老师辛苦了，这么晚还在普及知识

作者: 贾文泽 时间: 2013-4-29 01:07
老师幸苦了{:soso_e129:}

作者: HM刘俊 时间: 2013-4-29 01:53
老师太敬业了。希望能在云丝看到您啊。

作者: wuddd 时间: 2013-4-29 05:30

曹睿翔发表于 2013-4-29 01:02
基本明白，不深究，占个楼说说我的理解

输入数据

对过程、mapper、reducer的理解基本都是到位的，非常棒！！！

hadoop适合处理大量的历史数据，就是不会再次修改的数据。它本质上是一种数据处理的算法，RDBMS也在借鉴类似的做法，hadoop也在借鉴RDBMS中的特点，二者以后走的会越来越近。

你说的“分类”，我没怎么理解，不敢妄下定论。hadoop中的常见算法，包括单词计数、去重、表连接等。

入学前建议学习javaSE的东西，这是贯穿整个职业生涯的东西。hadoop只是后期的一个框架，javaSE基础夯实了，hadoop学习起来很快！

作者: wuddd 时间: 2013-4-29 05:43

HM刘俊发表于 2013-4-29 01:53
老师太敬业了。希望能在云丝看到您啊。

快2点了，还没有休息，比我敬业。咱们都要注意身体啊！程序员可以多玩玩羽毛球，对颈椎有好处

作者: 刘文飞 时间: 2013-4-29 06:12

吴超老师发表于 2013-4-29 05:43
快2点了，还没有休息，比我敬业。咱们都要注意身体啊！程序员可以多玩玩羽毛球，对颈椎有好处 ...

为什么要写map、reduce两个方法？？？
留了个坑啊。

作者: wuddd 时间: 2013-4-29 07:05

刘文飞发表于 2013-4-29 06:12
为什么要写map、reduce两个方法？？？
留了个坑啊。

关于map、reduce方法的普适性含义，可以看http://bbs.itheima.com/thread-44280-1-1.html。关于在hadoop中是什么含义，就是本帖的目的。“为什么写、如何写”要讲明白的话，需要先讲hadoop框架，讲到底层的api等，对新人普及知识而言是不合适的。

MapReduce我是计划讲2天时间，约12个小时。这个坑只能留着，论坛中肯定是填不平的。如果你深入研究过，咱们可以单独沟通，比如电话、邮件，在帖子中还是不谈细节吧。

作者: 黄玉昆 时间: 2013-4-29 08:35
老师要注意休息啊，喜欢这样的帖子，虽然我不是报的云，但是对hadoop比较感兴趣。以后有机会一定好后学习学习。
老师辛苦了

作者: 张超 时间: 2013-4-29 08:51
基本明白：
咱们做的就是去覆盖第二阶段mapper和和第四阶段的ruducer的函数，这两个函数的接受值分别是k1,v1 k2,list(v2); 输出值分别为k2,v2 k3,v3.

作者: HM刘俊 时间: 2013-4-29 12:29

吴超老师发表于 2013-4-29 05:43
快2点了，还没有休息，比我敬业。咱们都要注意身体啊！程序员可以多玩玩羽毛球，对颈椎有好处 ...

谢谢老师的建议。是啊，身体是革命的本钱，呵呵。

作者: wuddd 时间: 2013-4-29 17:01

张超发表于 2013-4-29 08:51
基本明白：
咱们做的就是去覆盖第二阶段mapper和和第四阶段的ruducer的函数，这两个函数的接受值分别是k1,v ...

完全正确

作者: Miss小强 时间: 2013-4-29 18:16
可否这样理解：
你给我数据，我帮你进行相应的处理，得到的是你想要的数据，至于我怎么做的，你不比清楚；对数据的处理分为两个方面
一个是程序员做的：也就是mapper和reduce方法的覆盖，还有一部分是框架内部进行处理的，就好比是struts2的表单封装一样；
疑问：分布式？我只知道点对点，或者说对等，每一台电脑即是客户机也是服务器。。。但是分布式是个什么概念就不晓得了。。。

作者: Miss小强 时间: 2013-4-29 18:19
追问；hadoop是在linux下开发，那这个linux是ubuntu还是red hat；
有没有什么特定的限制。或者说您用的是哪一种系统写hadoop。。。。

作者: wuddd 时间: 2013-4-29 20:13

Miss小强发表于 2013-4-29 18:19
追问；hadoop是在linux下开发，那这个linux是ubuntu还是red hat；
有没有什么特定的限制。或者说您用的是哪 ...

都可以。教学用red hat

作者: wuddd 时间: 2013-4-29 20:15

Miss小强发表于 2013-4-29 18:16
可否这样理解：
你给我数据，我帮你进行相应的处理，得到的是你想要的数据，至于我怎么做的，你不比清楚； ...

理解完全正确！

对等也是分布式啊

作者: Miss小强 时间: 2013-4-29 22:14

吴超老师发表于 2013-4-29 20:15
理解完全正确！

对等也是分布式啊

好吧，我先把SSH，和linux学好来再说，到时候就跟着您混了，希望在云四的教室碰到您。。。

作者: 飞翔的老鹰 时间: 2013-4-30 18:36
吴老师你好能请教一下国外哪些网站hadoop共享的知识比较多吗国内这方面共享的资料几乎没有我英语六级我觉得我也可以去看看外国的网站来学习还有你那个基金项目是不错的可是功能点太少能加点功能点比如多表的糅合AJAX的增删改查谢了

作者: 郭金龙 时间: 2013-4-30 19:09
基本看懂，老师，什么时候来我们上海上课啊???

作者: wuddd 时间: 2013-4-30 21:08

郭金龙发表于 2013-4-30 19:09
基本看懂，老师，什么时候来我们上海上课啊???

你们需要我就去啊，呵呵。

准确的说，这事需要上海、北京的教学总监批准。很期盼啊

作者: wuddd 时间: 2013-4-30 23:00

飞翔的老鹰发表于 2013-4-30 18:36
吴老师你好能请教一下国外哪些网站hadoop共享的知识比较多吗国内这方面共享的资料几乎没有我英语六级 ...

我看的国外网站就是官网，比如http://hadoop.apache.org/、http://hbase.apache.org/等。可能还有更多的网站，但是他们的知识也是来源于官网，建议好好研究官网。如果想了解项目的最新动态，可以加入他们的开发人员邮件列表，我加入了，总是收到一些最新的讨论，很有意思的。

我的基金项目以后不讲了，什么时候再讲看学校安排。感谢你的建议，我会注意的！

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2