哎...又要写帖子 脑细胞都不够用了 我敲点代码给你看看吧 这两天学的hadoop 嘿嘿嘿!!!
首先 来说一下hadoop的执行流程吧 如果要对一些数据先分析的话:
先分析k1 v1 k2 v2 确定k1 v1 v2 v2 = mapper阶段 mapper阶段后还有shuffle阶段 shuffle阶段有分区 排序 规约 分组 分区我们老师说了就是一堆人分到北极或赤道,然后分组就是把北极或赤道的人分成几部分 比如 男 、女 分区是大范围 分组是小范围 然后规约继承reducer的 对mapTask的局部汇总 减少reduer阶段的压力
排序就是writableComparatable 一个bean对象 重写三个方法 序列化 反序列化 compareTo = this.xxx .compareTo(bean.xxx)
然后数据分析可以在集群上或本地 集群上要打包jar包和上传jar包 hdfs dfs -mkdir -p text_jar rz-E + jar包 hdfs dfs -mkdir -p /text hdfs dfs -put text.txt
cd /text_jar hadoop jar xxx.jar cn.itcat.main....
idea创建代码执行步骤
new moudle 然后倒入maven maven 设置jar包打包方式 new mapper extend mapper new reducer new JobMain
学的不是很细 写的很糟糕 希望各位大佬多多体谅 嘿嘿
|
|