MR的单词计数小程序

作者：mobiledu2502914555 | 来源：互联网 | 2023-05-17 20:17

----------------------------------主程序入口----------------------------------packagecom.demo01

----------------------------------主程序入口----------------------------------
package com.demo01.wordcount;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
public class JobMain extends Configured implements Tool {
/**
*主程序入口
* @param args
*/
public static void main(String[] args) throws Exception {
//这里执行完成，返回一个程序退出状态码 0成功
//这里设置configguration相当于给父类赋值了
int run = ToolRunner.run(new Configuration(),new JobMain(),args);
System.exit(run);
}
/**
*
* run方法很重要，用来组装8个类,用Job组装在一起
* @param strings
* @return
* @throws Exception
*/
@Override
public int run(String[] strings) throws Exception {
//1.读取文件解析成value对
//第一个是configuration配置文件,第二个定义job的名字
Job job = Job.getInstance(super.getConf(),"XXX");
//设置程序入口类
job.setJarByClass(JobMain.class);
//设置job接收的的数据类型
job.setInputFormatClass(TextInputFormat.class);
//设置需要处理的文件
//hdfs集群下执行
// FileInputFormat.addInputPath(job,new Path("hdfs://node01:8020/wordcount"));
//本地测试
FileInputFormat.addInputPath(job,new Path("file:///D:\\dsj\\baishi课件\\hadoop\\3、大数据离线第三天\\3、大数据离线第三天\\wordcount\\input"));

//2.自定义mapper类
job.setMapperClass(WordCountMapper.class);
//设置key2和value2的类
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(LongWritable.class);
/**
* 第三到六步:
* 分区相同key的value，放松到一个reduce，key合并，value形成一个集合
* 排序
* 规约
* 分组
*/
//7.自定义reduce逻辑
job.setReducerClass(WordCountReduce.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
//8.输出文件
//路径一定要不存在，存在就报错
// TextOutputFormat.setOutputPath(job,new Path("hdfs://node01/wordcountoutput"));
//本地测试
TextOutputFormat.setOutputPath(job,new Path("file:///D:\\dsj\\baishi课件\\hadoop\\3、大数据离线第三天\\3、大数据离线第三天\\wordcount\\output"));
//提交任务到集群上
boolean b = job.waitForCompletion(true);
return b?0:1;
}
}

----------------------------------mapper程序----------------------------------

package com.demo01.wordcount;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
//此处泛型hadoop对java基础类型进行了包装，加快网络传输, 4个参数代表
public class WordCountMapper extends Mapper {
//重写map方法:自定义k1 v1转换到k2 v2的方法
/**
*
* @param key k1
* @param value v1
* @param context 上下文对象,对接我们上面的组件与下面的组件
* @throws IOException
* @throws InterruptedException
*/
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//hive,sqoop,flume,hello
String[] split = value.toString().split(",");
//遍历k2和v2往下发送
for (String word : split) {
Text k2 = new Text(word);
LongWritable v2 = new LongWritable(1);
context.write(k2,v2);
}
}
}

----------------------------REDUCE程序--------------------------------------

package com.demo01.wordcount;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
//k2,v2,k3,v3
public class WordCountReduce extends Reducer {
/**
*
* @param key k2
* @param values 一个集合,集合类型是v2的类型
* @param context
* @throws IOException
* @throws InterruptedException
*/
@Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
int num = 0;
for (LongWritable value : values) {
//IntWritable这个类没有加方法，通过get()编程编程java类型
num += value.get();
}
context.write(key,new LongWritable(num));
}
}

推荐阅读

const
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
int
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
substring
Java设计模式详解：解释器模式的应用与实现

本文详细介绍了Java设计模式中的解释器模式，包括其定义、应用场景、优缺点以及具体的实现示例。通过音乐解释器的例子，帮助读者更好地理解和应用这一模式。 ... [详细]

蜡笔小新 2024-11-14 21:00:34
int
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
int
Java 中的等时日期(int，int)方法，示例

Java 中的等时日期(int，int)方法，示例 ... [详细]

蜡笔小新 2024-11-15 07:28:40
int
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
const
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
substring
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
int
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
const
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
schema
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
int
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
int
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
const
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
int
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39

mobiledu2502914555

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章