[Python+大数据] 疯狂的代码....

哎...又要写帖子脑细胞都不够用了我敲点代码给你看看吧这两天学的hadoop 嘿嘿嘿！！！
首先来说一下hadoop的执行流程吧  如果要对一些数据先分析的话:
先分析k1 v1 k2 v2 确定k1 v1 v2 v2 = mapper阶段  mapper阶段后还有shuffle阶段 shuffle阶段有分区排序规约分组分区我们老师说了就是一堆人分到北极或赤道，然后分组就是把北极或赤道的人分成几部分比如男、女  分区是大范围  分组是小范围  然后规约继承reducer的对mapTask的局部汇总减少reduer阶段的压力
排序就是writableComparatable 一个bean对象重写三个方法序列化反序列化 compareTo  = this.xxx .compareTo(bean.xxx)
然后数据分析可以在集群上或本地集群上要打包jar包和上传jar包 hdfs dfs -mkdir -p text_jar  rz-E + jar包 hdfs dfs -mkdir -p /text hdfs dfs -put text.txt
cd /text_jar hadoop jar xxx.jar cn.itcat.main....
idea创建代码执行步骤
new moudle  然后倒入maven maven 设置jar包打包方式 new mapper extend mapper new reducer new JobMain
学的不是很细写的很糟糕希望各位大佬多多体谅嘿嘿

帐号		自动登录	找回密码
密码			加入黑马

[Python+大数据] 疯狂的代码....

0 个回复