开发笔记:mapreduce计数器

作者：j7988l28 | 来源：互联网 | 2023-09-04 09:22

本文由编程笔记#小编为大家整理，主要介绍了mapreduce计数器相关的知识，希望对你有一定的参考价值。1、MapReduce计数器是什么？计数

本文由编程笔记#小编为大家整理，主要介绍了mapreduce计数器相关的知识，希望对你有一定的参考价值。

1、MapReduce计数器是什么？

计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器，记录数据或者进度的变化情况。

2、MapReduce计数器能做什么？

MapReduce 计数器（Counter）为我们提供一个窗口，用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助，MapReduce性能优化的评估大部分都是基于这些 Counter 的数值表现出来的。

3、MapReduce 都有哪些内置计数器？

MapReduce 自带了许多默认Counter，现在我们来分析这些默认 Counter 的含义，方便大家观察 Job 结果，如输入的字节数、输出的字节数、Map端输入/输出的字节数和条数、Reduce端的输入/输出的字节数和条数等。下面我们只需了解这些内置计数器，知道计数器组名称（groupName）和计数器名称（counterName），以后使用计数器会查找groupName和counterName即可。

1、任务计数器

在任务执行过程中，任务计数器采集任务的相关信息，每个作业的所有任务的结果会被聚集起来。例如，MAP_INPUT_RECORDS 计数器统计每个map任务输入记录的总数，并在一个作业的所有map任务上进行聚集，使得最终数字是整个作业的所有输入记录的总数。任务计数器由其关联任务维护，并定期发送给TaskTracker，再由TaskTracker发送给 JobTracker。因此，计数器能够被全局地聚集。下面我们分别了解各种任务计数器。

1、MapReduce 任务计数器

MapReduce 任务计数器的 groupName为org.apache.hadoop.mapreduce.TaskCounter，它包含的计数器如下表所示

计数器名称	说明
map 输入的记录数（MAP_INPUT_RECORDS）	作业中所有 map 已处理的输入记录数。每次 RecorderReader 读到一条记录并将其传给 map 的 map() 函数时，该计数器的值增加。
map 跳过的记录数（MAP_SKIPPED_RECORDS）	作业中所有 map 跳过的输入记录数。
map 输入的字节数（MAP_INPUT_BYTES）	作业中所有 map 已处理的未经压缩的输入数据的字节数。每次 RecorderReader 读到一条记录并将其传给 map 的 map() 函数时，该计数器的值增加
分片split的原始字节数（SPLIT_RAW_BYTES）	由 map 读取的输入-分片对象的字节数。这些对象描述分片元数据（文件的位移和长度），而不是分片的数据自身，因此总规模是小的
map 输出的记录数（MAP_OUTPUT_RECORDS）	作业中所有 map 产生的 map 输出记录数。每次某一个 map 的Context 调用 write() 方法时，该计数器的值增加
map 输出的字节数（MAP_OUTPUT_BYTES）	作业中所有 map 产生的未经压缩的输出数据的字节数。每次某一个 map 的 Context 调用 write() 方法时，该计数器的值增加。
map 输出的物化字节数（MAP_OUTPUT_MATERIALIZED_BYTES）	map 输出后确实写到磁盘上的字节数；若 map 输出压缩功能被启用，则会在计数器值上反映出来
combine 输入的记录数（COMBINE_INPUT_RECORDS）	作业中所有 Combiner（如果有）已处理的输入记录数。Combiner 的迭代器每次读一个值，该计数器的值增加。
combine 输出的记录数（COMBINE_OUTPUT_RECORDS）	作业中所有 Combiner（如果有）已产生的输出记录数。每当一个 Combiner 的 Context 调用 write() 方法时，该计数器的值增加。
reduce 输入的组（REDUCE_INPUT_GROUPS）	作业中所有 reducer 已经处理的不同的码分组的个数。每当某一个 reducer 的 reduce() 被调用时，该计数器的值增加。
reduce 输入的记录数（REDUCE_INPUT_RECORDS）	作业中所有 reducer 已经处理的输入记录的个数。每当某个 reducer 的迭代器读一个值时，该计数器的值增加。如果所有 reducer 已经处理完所有输入，则该计数器的值与计数器 “map 输出的记录” 的值相同
reduce 输出的记录数（REDUCE_OUTPUT_RECORDS）	作业中所有 map 已经产生的 reduce 输出记录数。每当某一个 reducer 的 Context 调用 write() 方法时，该计数器的值增加。
reduce 跳过的组数（REDUCE_SKIPPED_GROUPS）	作业中所有 reducer 已经跳过的不同的码分组的个数。
reduce 跳过的记录数（REDUCE_SKIPPED_RECORDS）	作业中所有 reducer 已经跳过输入记录数。
reduce 经过 shuffle 的字节数（REDUCE_SHUFFLE_BYTES）	shuffle 将 map 的输出数据复制到 reducer 中的字节数。
溢出的记录数（SPILLED_RECORDS）	作业中所有 map和reduce 任务溢出到磁盘的记录数
CPU 毫秒（CPU_MILLISECONDS）	总计的 CPU 时间，以毫秒为单位，由/proc/cpuinfo获取
物理内存字节数（PHYSICAL_MEMORY_BYTES）	一个任务所用物理内存的字节数，由/proc/cpuinfo获取
虚拟内存字节数（VIRTUAL_MEMORY_BYTES）	一个任务所用虚拟内存的字节数，由/proc/cpuinfo获取
有效的堆字节数（COMMITTED_HEAP_BYTES）	在 JVM 中的总有效内存量（以字节为单位），可由Runtime().getRuntime().totaoMemory()获取。
GC 运行时间毫秒数（GC_TIME_MILLIS）	在任务执行过程中，垃圾收集器（garbage collection）花费的时间（以毫秒为单位），可由 GarbageCollector MXBean.getCollectionTime()获取；该计数器并未出现在1.x版本中。
由 shuffle 传输的 map 输出数（SHUFFLED_MAPS）	有 shuffle 传输到 reducer 的 map 输出文件数。
失败的 shuffle 数（SHUFFLE_MAPS）	在 shuffle 过程中，发生拷贝错误的 map 输出文件数，该计数器并没有包含在 1.x 版本中。
被合并的 map 输出数	在 shuffle 过程中，在 reduce 端被合并的 map 输出文件数，该计数器没有包含在 1.x 版本中。

2、文件系统计数器

文件系统计数器的 groupName为org.apache.hadoop.mapreduce.FileSystemCounter，它包含的计数器如下表所示

计数器名称	说明
文件系统的读字节数（BYTES_READ）	由 map 和 reduce 等任务在各个文件系统中读取的字节数，各个文件系统分别对应一个计数器，可以是 Local、HDFS、S3和KFS等。
文件系统的写字节数（BYTES_WRITTEN）	由 map 和 reduce 等任务在各个文件系统中写的字节数。

3、FileInputFormat 计数器

FileInputFormat 计数器的 groupName为org.apache.hadoop.mapreduce.lib.input.FileInputFormatCounter，它包含的计数器如下表所示，计数器名称列的括号（）内容即为counterName

计数器名称	说明
读取的字节数（BYTES_READ）	由 map 任务通过 FileInputFormat 读取的字节数。

4、FileOutputFormat 计数器

FileOutputFormat 计数器的 groupName为org.apache.hadoop.mapreduce.lib.input.FileOutputFormatCounter，它包含的计数器如下表所示

计数器名称	说明
写的字节数（BYTES_WRITTEN）	由 map 任务（针对仅含 map 的作业）或者 reduce 任务通过 FileOutputFormat 写的字节数。

2、作业计数器

作业计数器由 JobTracker（或者 YARN）维护，因此无需在网络间传输数据，这一点与包括 “用户定义的计数器” 在内的其它计数器不同。这些计数器都是作业级别的统计量，其值不会随着任务运行而改变。作业计数器计数器的 groupName为org.apache.hadoop.mapreduce.JobCounter，它包含的计数器如下表所示

计数器名称	说明
启用的map任务数（TOTAL_LAUNCHED_MAPS）	启动的map任务数，包括以“推测执行” 方式启动的任务。
启用的 reduce 任务数（TOTAL_LAUNCHED_REDUCES）	启动的reduce任务数，包括以“推测执行” 方式启动的任务。
失败的map任务数（NUM_FAILED_MAPS）	失败的map任务数。
失败的 reduce 任务数（NUM_FAILED_REDUCES）	失败的reduce任务数。
数据本地化的 map 任务数（DATA_LOCAL_MAPS）	与输入数据在同一节点的 map 任务数。
机架本地化的 map 任务数（RACK_LOCAL_MAPS）	与输入数据在同一机架范围内、但不在同一节点上的 map 任务数。
其它本地化的 map 任务数（OTHER_LOCAL_MAPS）	与输入数据不在同一机架范围内的 map 任务数。由于机架之间的宽带资源相对较少，Hadoop 会尽量让 map 任务靠近输入数据执行，因此该计数器值一般比较小。
map 任务的总运行时间（SLOTS_MILLIS_MAPS）	map 任务的总运行时间，单位毫秒。该计数器包括以推测执行方式启动的任务。
reduce 任务的总运行时间（SLOTS_MILLIS_REDUCES）	reduce任务的总运行时间，单位毫秒。该值包括以推测执行方式启动的任务。
在保留槽之后，map任务等待的总时间（FALLOW_SLOTS_MILLIS_MAPS）	在为 map 任务保留槽之后所花费的总等待时间，单位是毫秒。
在保留槽之后，reduce 任务等待的总时间（FALLOW_SLOTS_MILLIS_REDUCES）	在为 reduce 任务保留槽之后，花在等待上的总时间，单位为毫秒。

4、计数器的该如何使用？

下面我们来介绍如何使用计数器。

1、定义计数器

1)枚举声明计数器

// 自定义枚举变量Enum
Counter counter = context.getCounter(Enum enum)

2)自定义计数器

// 自己命名groupName和counterName
Counter counter = context.getCounter(String groupName,String counterName)

2、为计数器赋值

1)初始化计数器

counter.setValue(long value);// 设置初始值

2)计数器自增

counter.increment(long incr);// 增加计数

3、获取计数器的值

1) 获取枚举计数器的值

Configuration cOnf= new Configuration();
Job job = new Job(conf, "MyCounter");
job.waitForCompletion(true);
Counters counters=job.getCounters();
Counter counter=counters.findCounter(LOG_PROCESSOR_COUNTER.BAD_RECORDS_LONG);// 查找枚举计数器，假如Enum的变量为BAD_RECORDS_LONG
long value=counter.getValue();//获取计数值

2) 获取自定义计数器的值

Configuration cOnf= new Configuration();
Job job = new Job(conf, "MyCounter");
job.waitForCompletion(true);
Counters counters = job.getCounters();
Counter counter=counters.findCounter("ErrorCounter","toolong");// 假如groupName为ErrorCounter，counterName为toolong
long value = counter.getValue();// 获取计数值

3) 获取内置计数器的值

Configuration cOnf= new Configuration();
Job job = new Job(conf, "MyCounter");
job.waitForCompletion(true);
Counters counters=job.getCounters();
// 查找作业运行启动的reduce个数的计数器，groupName和counterName可以从内置计数器表格查询（前面已经列举有）
Counter counter=counters.findCounter("org.apache.hadoop.mapreduce.JobCounter","TOTAL_LAUNCHED_REDUCES");// 假如groupName为org.apache.hadoop.mapreduce.JobCounter，counterName为TOTAL_LAUNCHED_REDUCES
long value=counter.getValue();// 获取计数值

4) 获取所有计数器的值

Configuration cOnf= new Configuration();
Job job = new Job(conf, "MyCounter");
Counters counters = job.getCounters();
for (CounterGroup group : counters) {
for (Counter counter : group) {
System.out.println(counter.getDisplayName() + ": " + counter.getName() + ": "+ counter.getValue());
}
}

5、自定义计数器

自定义计数器用的比较广泛，特别是统计无效数据条数的时候，我们就会用到计数器来记录错误日志的条数。下面我们自定义计数器，统计输入的无效数据。

1、数据集

假如一个文件，规范的格式是3个字段，“ ”作为分隔符，其中有2条异常数据，一条数据是只有2个字段，一条数据是有4个字段。其内容如下所示

技术分享图片

2、实现

package com.buaa;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
* @ProjectName CustomCounterDemo
* @PackageName com.buaa
* @ClassName MyCounter
* @Description 假如一个文件，规范的格式是3个字段，“ ”作为分隔符，其中有2条异常数据，一条数据是只有2个字段，一条数据是有4个字段
* @Author 刘吉超
* @Date 2016-05-23 20:10:14
*/
public class MyCounter {
// 键
private static String TAB_SEPARATOR = " ";
public static class MyCounterMap extends
Mapper {
// 定义枚举对象
public static enum LOG_PROCESSOR_COUNTER {
BAD_RECORDS_LONG, BAD_RECORDS_SHORT
};

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String arr_value[] = value.toString().split(TAB_SEPARATOR);
if (arr_value.length > 3) {
/* 自定义计数器 */
context.getCounter("ErrorCounter", "toolong").increment(1);
/* 枚举计数器 */
context.getCounter(LOG_PROCESSOR_COUNTER.BAD_RECORDS_LONG).increment(1);
} else if (arr_value.length <3) {
// 自定义计数器
context.getCounter("ErrorCounter", "tooshort").increment(1);
// 枚举计数器
context.getCounter(LOG_PROCESSOR_COUNTER.BAD_RECORDS_SHORT).increment(1);
}
}
}
@SuppressWarnings("deprecation")
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
String[] args0 = {
"hdfs://hadoop2:9000/buaa/counter/counter.txt",
"hdfs://hadoop2:9000/buaa/counter/out/"
};
// 读取配置文件
Configuration cOnf= new Configuration();

// 如果输出目录存在，则删除
Path mypath = new Path(args0[1]);
FileSystem hdfs = mypath.getFileSystem(conf);
if (hdfs.isDirectory(mypath)) {
hdfs.delete(mypath, true);
}
// 新建一个任务
Job job = new Job(conf, "MyCounter");
// 主类
job.setJarByClass(MyCounter.class);
// Mapper
job.setMapperClass(MyCounterMap.class);
// 输入目录
FileInputFormat.addInputPath(job, new Path(args0[0]));
// 输出目录
FileOutputFormat.setOutputPath(job, new Path(args0[1]));

// 提交任务，并退出
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

3、运行结果

在输出日志中，查看计数器的值

技术分享图片

从日志中可以看出，通过枚举声明和自定义计数器两种方式，统计出的不规范数据是一样的

推荐阅读

command
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
sum
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
sum
Java 11相对于Java 8，OptaPlanner性能提升有多大？

本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明，在相同的硬件环境下，Java 11相对于Java 8在垃圾回收方面表现更好，从而提升了OptaPlanner的性能。 ... [详细]

蜡笔小新 2023-12-11 10:59:22
list
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37
list
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
main
java中的try catch_Java中的trycatchfinally异常处理

Java中的try-catch-finally异常处理一、异常处理异常(Exception):是在运行发生的不正常情况。原始异常处理：if(条件){处理办法1处理办法 ... [详细]

蜡笔小新 2023-10-17 00:49:18
main
最全的JAVA知识汇总（附讲解和思维导图）

微信公众号：内核小王子关注可了解更多关于数据库，JVM内核相关的知识;如果你有任何疑问也可以加我pigpdong[^1]jvm一行代码是怎么运行的首先，java代码会被编译成字 ... [详细]

蜡笔小新 2023-10-16 19:56:17
sum
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
sum
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
sum
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
sum
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
sum
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
text
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13
import
Annotation的大材小用

为什么80%的码农都做不了架构师？最近在开发一些通用的excel数据导入的功能，由于涉及到导入的模块很多，所以开发了一个比较通用的e ... [详细]

蜡笔小新 2023-10-17 19:43:18
jsp
spark登陆后闪一下就不见了，问题解决了。

这个问题困扰了我两天，卸载Dr.COM客户端（我们学校上网要装这个客户端登陆服务器，以后只能在网页里输入用户名和密码了），问题解决了。问题的现象：在实验室机台式机上安装openfire和sp ... [详细]

蜡笔小新 2023-10-17 16:47:14

j7988l28

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章