javamapreduce_通过简单的Word Count讲解MapReduce原理以及Java实现

作者：人生如梦5mm_605 | 来源：互联网 | 2023-09-16 09:45

MapReduce原理：MapReduce采用分而治之的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成&#x

MapReduce原理&＃xff1a;

MapReduce采用"分而治之"的思想&＃xff0c;把对大规模数据集的操作&＃xff0c;分发给一个主节点管理下的各个分节点共同完成&＃xff0c;然后通过整合各个节点的中间结果&＃xff0c;得到最终结果。简单地说&＃xff0c;MapReduce就是"任务的分解与结果的汇总"。

在Hadoop中&＃xff0c;用于执行MapReduce任务的机器角色有两个&＃xff1a;一个是JobTracker&＃xff1b;另一个是TaskTracker&＃xff0c;JobTracker是用于调度工作的&＃xff0c;TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。

在分布式计算中&＃xff0c;MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题&＃xff0c;把处理过程高度抽象为两个函数&＃xff1a;map和reduce&＃xff0c;map负责把任务分解成多个任务&＃xff0c;reduce负责把分解后多任务处理的结果汇总起来。

需要注意的是&＃xff0c;用MapReduce来处理的数据集(或任务)必须具备这样的特点&＃xff1a;待处理的数据集可以分解成许多小的数据集&＃xff0c;而且每一个小数据集都可以完全并行地进行处理。

在Hadoop中&＃xff0c;每个MapReduce任务都被初始化为一个Job&＃xff0c;每个Job又可以分为两种阶段&＃xff1a;map阶段和reduce阶段。这两个阶段分别用两个函数表示&＃xff0c;即map函数和reduce函数。map函数接收一个形式的输入&＃xff0c;然后同样产生一个形式的中间输出&＃xff0c;Hadoop函数接收一个如形式的输入&＃xff0c;然后对这个value集合进行处理&＃xff0c;每个reduce产生0或1个输出&＃xff0c;reduce的输出也是形式的。

下面以一个最简单的例子说明&＃xff1a;

单词计数是最简单也是最能体现MapReduce思想的程序之一&＃xff0c;可以称为MapReduce版"Hello World"&＃xff0c;该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是&＃xff1a;统计一系列文本文件中每个单词出现的次数&＃xff0c;如下图所示。

package

org.apache.hadoop.examples;

import

java.io.IOException;

import

java.util.StringTokenizer;

import

org.apache.hadoop.conf.Configuration;

import

org.apache.hadoop.fs.Path;

import

org.apache.hadoop.io.IntWritable;

import

org.apache.hadoop.io.Text;

import

org.apache.hadoop.mapreduce.Job;

import

org.apache.hadoop.mapreduce.Mapper;

import

org.apache.hadoop.mapreduce.Reducer;

import

org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import

org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import

org.apache.hadoop.util.GenericOptionsParser;

public class WordCount

{

public static class

TokenizerMapper

extends

Mapper{

private final

static IntWritable one &＃61; new IntWritable(1);

private Text word

&＃61; new Text();

public void

map(Object key, Text value, Context context)

throws

IOException, InterruptedException {

StringTokenizer

itr &＃61; new StringTokenizer(value.toString());

while

(itr.hasMoreTokens()) {

word.set(itr.nextToken());

context.write(word, one);

}

public static class

IntSumReducer

extends Reducer

{

private

IntWritable result &＃61; new IntWritable();

public void

reduce(Text key, Iterable values,Context context)

throws

IOException, InterruptedException {

int sum &＃61;

for (IntWritable

val : values) {

sum &＃43;&＃61;

val.get();

}

result.set(sum);

context.write(key,

result);

}

public static void

main(String[] args) throws Exception {

Configuration conf &＃61;

new Configuration();

String[] otherArgs &＃61;

new GenericOptionsParser(conf,

args).getRemainingArgs();

if (otherArgs.length

!&＃61; 2) {

System.err.println("Usage: wordcount ");

System.exit(2);

}

Job job &＃61; new

Job(conf, "word count");

job.setJarByClass(WordCount.class);

job.setMapperClass(TokenizerMapper.class);

job.setCombinerClass(IntSumReducer.class);

job.setReducerClass(IntSumReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job, new

Path(otherArgs[0]));

FileOutputFormat.setOutputPath(job, new

Path(otherArgs[1]));

System.exit(job.waitForCompletion(true) ? 0 :

1);

}

Map过程需要继承org.apache.hadoop.mapreduce包中Mapper类&＃xff0c;并重写其map方法。通过在map方法中添加两句把key值和value值输出到控制台的代码&＃xff0c;可以发现map方法中value值存储的是文本文件中的一行(以回车符为行结束标记)&＃xff0c;而key值为该行的首字母相对于文本文件的首地址的偏移量。然后StringTokenizer类将每一行拆分成为一个个的单词&＃xff0c;并将作为map方法的结果输出&＃xff0c;其余的工作都交有MapReduce框架处理。

Reduce过程需要继承org.apache.hadoop.mapreduce包中Reducer类&＃xff0c;并重写其reduce方法。Map过程输出中key为单个单词&＃xff0c;而values是对应单词的计数值所组成的列表&＃xff0c;Map的输出就是Reduce的输入&＃xff0c;所以reduce方法只要遍历values并求和&＃xff0c;即可得到某个单词的总次数。

在MapReduce中&＃xff0c;由Job对象负责管理和运行一个计算任务&＃xff0c;并通过Job的一些方法对任务的参数进行相关的设置。此处设置了使用TokenizerMapper完成Map过程中的处理和使用IntSumReducer完成Combine和Reduce过程中的处理。还设置了Map过程和Reduce过程的输出类型&＃xff1a;key的类型为Text&＃xff0c;value的类型为IntWritable。任务的输出和输入路径则由命令行参数指定&＃xff0c;并由FileInputFormat和FileOutputFormat分别设定。完成相应任务的参数设定后&＃xff0c;即可调用job.waitForCompletion()方法执行任务。

Hadoop提供了如下内容的数据类型&＃xff0c;这些数据类型都实现了WritableComparable接口&＃xff0c;以便用这些类型定义的数据可以被序列化进行网络传输和文件存储&＃xff0c;以及进行大小比较。

BooleanWritable&＃xff1a;标准布尔型数值

ByteWritable&＃xff1a;单字节数值

DoubleWritable&＃xff1a;双字节数

FloatWritable&＃xff1a;浮点数

IntWritable&＃xff1a;整型数

LongWritable&＃xff1a;长整型数

Text&＃xff1a;使用UTF8格式存储的文本

NullWritable&＃xff1a;当中的key或value为空时使用

推荐阅读

function
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
get
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
function
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
get
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
range
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
int
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
spring
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
数组
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
数组
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
function
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
netty
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
input
使用jqTransform插件美化表单

jqTransform 是由 DFC Engineering 开发的一款 jQuery 插件，专用于美化表单元素，操作简便，能够美化包括输入框、单选按钮、多行文本域、下拉选择框和复选框在内的所有表单元素。 ... [详细]

蜡笔小新 2024-11-12 22:29:28
get
Android 系统版本号获取方法详解

本文详细介绍了如何在 Android 应用中获取系统的版本号，包括具体的应用场景和实现步骤。 ... [详细]

蜡笔小新 2024-11-12 14:43:24
range
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
install
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17

人生如梦5mm_605

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章