黑马程序员技术交流社区

标题: 疯狂的代码.... [打印本页]

作者: LeeLao    时间: 2019-12-24 16:56
标题: 疯狂的代码....
哎...又要写帖子 脑细胞都不够用了 我敲点代码给你看看吧 这两天学的hadoop 嘿嘿嘿!!!
首先 来说一下hadoop的执行流程吧  如果要对一些数据先分析的话:
先分析k1 v1 k2 v2 确定k1 v1 v2 v2 = mapper阶段  mapper阶段后还有shuffle阶段 shuffle阶段有分区 排序 规约 分组    分区我们老师说了就是一堆人分到北极或赤道,然后分组就是把北极或赤道的人分成几部分 比如 男 、女  分区是大范围  分组是小范围  然后规约继承reducer的 对mapTask的局部汇总 减少reduer阶段的压力
排序就是writableComparatable 一个bean对象 重写三个方法 序列化 反序列化 compareTo  = this.xxx .compareTo(bean.xxx)  
然后数据分析可以在集群上或本地   集群上要打包jar包和上传jar包    hdfs dfs -mkdir -p text_jar  rz-E + jar包    hdfs dfs -mkdir -p /text hdfs dfs -put text.txt
cd /text_jar hadoop jar xxx.jar cn.itcat.main....   
idea创建代码执行步骤
new moudle  然后倒入maven maven   设置jar包打包方式 new mapper extend mapper   new reducer new JobMain  
学的不是很细 写的很糟糕 希望各位大佬多多体谅 嘿嘿





欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2