A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

public class IndexStepOne {

        public static class IndexStepOneMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

                // 产生 <hello-文件名,1>
                @Override
                protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
                        // 从输入切片信息中获取当前正在处理的一行数据所属的文件
                        FileSplit inputSplit = (FileSplit) context.getInputSplit();
                        String fileName = inputSplit.getPath().getName();

                        String[] words = value.toString().split(" ");
                        for (String w : words) {
                                // 将"单词-文件名"作为key,1作为value,输出
                                context.write(new Text(w + "-" + fileName), new IntWritable(1));
                        }

                }

        }

        public static class IndexStepOneReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

                @Override
                protected void reduce(Text key, Iterable<IntWritable> values,
                                Reducer<Text, IntWritable, Text, IntWritable>.Context context)
                                throws IOException, InterruptedException {

                        int count = 0;
                        for (IntWritable value : values) {
                                count += value.get();
                        }

                        context.write(key, new IntWritable(count));

                }

        }
       
       
       
        public static void main(String[] args) throws Exception{
               
                Configuration conf = new Configuration();
               
                Job job = Job.getInstance(conf);

                job.setJarByClass(IndexStepOne.class);

                job.setMapperClass(IndexStepOneMapper.class);
                job.setReducerClass(IndexStepOneReducer.class);

                job.setNumReduceTasks(3);

                job.setMapOutputKeyClass(Text.class);
                job.setMapOutputValueClass(IntWritable.class);
               
                job.setOutputKeyClass(Text.class);
                job.setOutputValueClass(IntWritable.class);
               
                // job.setOutputFormatClass(TextOutputFormat.class);  // 这是默认的输出组件
                job.setOutputFormatClass(SequenceFileOutputFormat.class);
               

                FileInputFormat.setInputPaths(job, new Path("F:\\mrdata\\index\\input"));
                FileOutputFormat.setOutputPath(job, new Path("F:\\mrdata\\index\\out-seq-1"));

                job.waitForCompletion(true);
               
        }
       

}


public class IndexStepTwo {

        public static class IndexStepTwoMapper extends Mapper<Text, IntWritable, Text, Text> {

                @Override
                protected void map(Text key, IntWritable value, Context context) throws IOException, InterruptedException {
                        String[] split = key.toString().split("-");
                        context.write(new Text(split[0]), new Text(split[1]+"-->"+value));
                }

        }

        public static class IndexStepTwoReducer extends Reducer<Text, Text, Text, Text> {

                // 一组数据:  <hello,a.txt-->4> <hello,b.txt-->4> <hello,c.txt-->4>
                @Override
                protected void reduce(Text key, Iterable<Text> values,Context context)
                                throws IOException, InterruptedException {
                        // stringbuffer是线程安全的,stringbuilder是非线程安全的,在不涉及线程安全的场景下,stringbuilder更快
                        StringBuilder sb = new StringBuilder();
                       
                        for (Text value : values) {
                                sb.append(value.toString()).append("\t");
                        }
                       
                        context.write(key, new Text(sb.toString()));
                       

                }

        }
       
       
       
        public static void main(String[] args) throws Exception{
               
                Configuration conf = new Configuration(); // 默认只加载core-default.xml core-site.xml
               
                Job job = Job.getInstance(conf);

                job.setJarByClass(IndexStepTwo.class);

                job.setMapperClass(IndexStepTwoMapper.class);
                job.setReducerClass(IndexStepTwoReducer.class);

                job.setNumReduceTasks(1);

                job.setMapOutputKeyClass(Text.class);
                job.setMapOutputValueClass(Text.class);
               
                // job.setInputFormatClass(TextInputFormat.class); 默认的输入组件
                job.setInputFormatClass(SequenceFileInputFormat.class);
               
                job.setOutputKeyClass(Text.class);
                job.setOutputValueClass(Text.class);

                FileInputFormat.setInputPaths(job, new Path("F:\\mrdata\\index\\out1"));
                FileOutputFormat.setOutputPath(job, new Path("F:\\mrdata\\index\\out2"));

                job.waitForCompletion(true);
               
        }
       

}



1 个回复

倒序浏览
奈斯,感谢分享!
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马