【转】[Hadoop源码解读]（二）MapReduce篇之Mapper类

作者：CleanTheString | 来源：互联网 | 2023-10-11 15:14

转自:http:www.cnblogs.comluciusp3449912.html前面在讲InputFormat的时候，讲到了Mapper类是如何利用RecordReader来读

转自:http://www.cnblogs.com/lucius/p/3449912.html

前面在讲InputFormat的时候，讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。

这一篇里，开始对Mapper.class的子类进行解读。

bubuko.com,布布扣

先回忆一下。Mapper有setup()，map()，cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的
准备工作，map()则一般承担主要的处理工作，cleanup()则是收尾工作如关闭文件或者执行map()后的K-V分发等。run()方法提供了
setup->map->cleanup()的执行模板。

在MapReduce中，Mapper从一个输入分片中读取数据，然后经过Shuffle and
Sort阶段，分发数据给Reducer，在Map端和Reduce端我们可能使用设置的Combiner进行合并，这在Reduce前进行。
Partitioner控制每个K-V对应该被分发到哪个reducer[我们的Job可能有多个reducer]，Hadoop默认使用
HashPartitioner，HashPartitioner使用key的hashCode对reducer的数量取模得来。

从上面run方法可以看出，K/V对是从传入的Context获取的。我们也可以从下面的map方法看出，输出结果K/V对也是通过Context来完成的。至于Context暂且放着。

1 @SuppressWarnings("unchecked")
2 protected void map(KEYIN key, VALUEIN value,
3 Context context) throws IOException, InterruptedException {
4 context.write((KEYOUT) key, (VALUEOUT) value);
5 }

我们先来看看三个Mapper的子类，它们位于src\mapred\org\apache\hadoop\mapreduce\lib\map中。

1、TokenCounterMapper

我们看到，对于一个输入的K-V对，它使用StringTokenizer来获取value中的tokens，然后对每一个
token，分发出一个对，这将在reduce端被收集，同一个token对应的K-V对都会被收集到同一个
reducer上，这样我们就可以计算出所有mapper分发出来的以某个token为key的的数量，然后只要在
reduce函数中加起来，就得到了token的计数。这就是为什么这个类叫做TokenCounterMapper的原因。

在MapReduce的“Hello
world”：WordCount例子中，我们完全可以直接使用这个TokenCounterMapper作为MapperClass，仅需用
job.setMapperClass(TokenCounterMapper.class)进行设置即可。

2、InverseMapper

这个类更加简单，它紧紧是调换Key和Value，然后直接分发出去。举个例子：数据格式是<某商家,某商品>，我们既
可能需要计算一个商家对应的所有商品种类，也可能需要计算某个商品的销售商家数量，后者的情形，就可以使用InverseMapper来达到目的，使得相
同商品被分发到相同reducer。

3、MultithreadedMapper

这个类稍微有点复杂，它是使用多线程来执行一个Mapper。我们可以从类图中看到，它有一个mapClass属性，这个属性指定另一个Mapper类
[暂称workMapper，由mapred.map.multithreadedrunner.class设置]，实际干活的其实是这个Mapper类
而不是MultithreadedMapper。runnsers是运行的线程的列表。

下面是MultithreadedMapper的run()方法，它重写了Mapper中的run()。

从上面的代码我们可以看到，首先它设置运行上下文context和workMapper，然后启动多个MapRunner子线程[由mapred.map.multithreadedrunner.threads设置]，然后使用join()等待子线程都执行完毕。

MapRunner继承了Thread，它包含了一个独享的Context：subcontext，以及用mapper指定了workMapper，然后throwable是在MultithreadMapper的run()中进行综合的异常处理的。

在MapRunner的Constructor中我们看见，MapRunner所包含的subcontext中使用了独立的
RecordReader、RecordWriter和StatusReporter，它们分别是SubMapRecordReader、
SubMapRecordWriter和SubMapStatusReporter，我们就不分析了。值得注意的
是，SubMapRecordReader在读K-V对和SubMapRecordWriter在写K-V对的时候都要同步。这是通过互斥访问
MultithreadedMapper的上下文outer来实现的。

MultithreadedMapper适用于CPU密集型的任务，采用多个线程处理后，一个线程可以在另外的线程在执行时读取数据并执行，这样就使用了
更多的CPU周期来执行任务，从而提高吞吐率。注意读写操作都是线程安全的，因此不难想象对于IO密集型的作业，采用
MultithreadedMapper会适得其反，因为会有多个线程等待IO，IO成为限制吞吐率的关键。对于IO密集型的任务，我们应该采用增多
task数量的方法来解决，因为这样在IO上就是并行的。

除非map()的确是CPU密集型的，否则不推荐使用MultithreadedMapper，而建议采用更多的map
task。

【转】[Hadoop源码解读]（二）MapReduce篇之Mapper类,布布扣,bubuko.com

推荐阅读

php
java写简易五子棋游戏。

importjava.io.*;importjava.util.*;publicclass五子棋游戏{staticintm1;staticintn1;staticfinalintS ... [详细]

蜡笔小新 2024-11-20 17:34:54
php
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
php
深入理解C++构造函数

本文详细介绍了C++中的构造函数，包括其定义、特点以及如何通过构造函数进行对象的初始化。此外，还探讨了转换构造函数的概念及其在不同情境下的应用，以及如何避免不必要的隐式类型转换。 ... [详细]

蜡笔小新 2024-11-21 10:41:14
php
Android应用开发案例分享：春节假期个人项目

回顾两年前春节期间的一个个人项目，该项目原本计划参加竞赛，但最终作为练习项目完成。独自完成了从编码到UI设计的全部工作，尽管代码量不大，但仍有一定的参考价值。本文将详细介绍该项目的背景、功能及技术实现。 ... [详细]

蜡笔小新 2024-11-20 18:42:22
char
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
list
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
char
IC卡操作功能实现

本文介绍了如何通过C#语言调用动态链接库（DLL）中的函数来实现IC卡的基本操作，包括初始化设备、设置密码模式、获取设备状态等，并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]

蜡笔小新 2024-11-21 11:02:19
php
iOS 应用生命周期详解

本文详细介绍了iOS应用的生命周期，包括各个状态及其转换过程中的关键方法调用。 ... [详细]

蜡笔小新 2024-11-20 23:23:07
php
如何在PHP中安装Xdebug扩展

本文介绍了如何从PECL下载并编译安装Xdebug扩展，以及如何配置PHP和PHPStorm以启用调试功能。 ... [详细]

蜡笔小新 2024-11-20 18:31:50
php
物理隔离环境下的数据交换平台挑战与解决方案（上）

本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战，包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时，作者结合自身项目经验，分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]

蜡笔小新 2024-11-20 18:18:23
php
解决Visual Studio Code中PHP Intelephense误报问题

PHP作为一种高度灵活的编程语言，其代码结构可能导致Intelephense插件在某些情况下报告不必要的错误或警告。自1.3.3版本起，Intelephense引入了多个配置选项，允许用户根据具体的工作环境和编程风格调整这些诊断信息的显示。 ... [详细]

蜡笔小新 2024-11-20 16:47:16
php
心理学经典：《思考致富》

《思考致富》是由美国著名成功学大师拿破仑·希尔撰写的一部重要著作，该书基于希尔长达20年的深入研究和访谈，探讨了个人成功的核心要素。书中不仅揭示了成功的关键，还提供了一系列实用的方法和策略。 ... [详细]

蜡笔小新 2024-11-20 16:42:07
io
深入解析WebP图片格式及其应用

随着互联网技术的发展，无论是PC端还是移动端，图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下，如何在保证图片质量的同时减少文件大小，成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式，探讨其在实际项目中的应用及优化策略。 ... [详细]

蜡笔小新 2024-11-20 16:31:47
io
利用JavaScript for循环构建九九乘法表

本文介绍如何使用JavaScript中的for循环来创建一个九九乘法表，适合初学者学习循环结构的应用。 ... [详细]

蜡笔小新 2024-11-20 16:16:22
list
使用TabActivity实现Android顶部选项卡功能

本文介绍如何通过继承TabActivity来创建Android应用中的顶部选项卡。通过简单的步骤，您可以轻松地添加多个选项卡，并实现基本的界面切换功能。 ... [详细]

蜡笔小新 2024-11-21 17:47:42

CleanTheString

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章