当前位置: 开发笔记 > 编程语言 > 正文

Hadoop之MapReduce的两种任务模式

作者：西红柿 | 来源：互联网 | 2023-08-17 12:25

MapReduce按照任务大小和设置的不同，提供了两种任务模式：客户端通过org.apache.hadoop.mapreduce.protocol.ClientProtocol与服务

MapReduce按照任务大小和设置的不同，提供了两种任务模式：

客户端通过org.apache.hadoop.mapreduce.protocol.ClientProtocol与服务端通信，ClientProtocol的继承关系：

老一些的版本还有一个JobTracker的实现类，即：classic。用于和MapReduce1.X兼容用的，高一些的版本已经没有这个实现类了。

一，本地模式（LocalJobRunner实现）

mapreduce.framework.name设置为local，则不会使用YARN集群来分配资源，在本地节点执行。在本地模式运行的任务，无法发挥集群的优势。注：在web UI是查看不到本地模式运行的任务。

二，Yarn模式（YARNRunner实现）

mapreduce.framework.name设置为yarn，当客户端配置mapreduce.framework.name为yarn时, 客户端会使用YARNRunner与服务端通信, 而YARNRunner真正的实现是通过ClientRMProtocol与RM交互, 包括提交Application, 查询状态等功能。但是根据任务的特性，分为两种方式执行任务：

1，uber mode：

Uber模式是Hadoop2.0针对MR小作业的优化机制。通过mapreduce.job.ubertask.enable来设置是否开启小作业优化，默认为false。

如果用Job足够小，则串行在的一个JVM完成该JOB，即MRAppMaster进程中，这样比为每一个任务分配Container性能更好。

那么什么才是足够小的Job呢？下面我们看看一些的参数（mapred-site.xml）：

mapreduce.job.ubertask.maxmaps 最大的map数。默认值9
mapreduce.job.ubertask.maxreduces 最大的reduce数，默认为1
mapreduce.job.ubertask.maxbytes 最大的字节数，如果没有指定，默认和dfs.block.size一样。

应用程序的其他配置也会影响到对“小”的定义，yarn.app.mapreduce.am.resource.mb必须大于mapreduce.map.memory.mb和mapreduce.reduce.memory.mb，还有yarn.app.mapreduce.am.resource.cpu-vcores必须大于mapreduce.map.cpu.vcores 和 mapreduce.reduce.cpu.vcores，以下是这个配置的说明：

yarn.app.mapreduce.am.resource.mb MR AppMaster需要的内存数，默认为1536
mapreduce.map.memory.mb 从调度器（scheduler）为每个Map Task请求的内存数，默认1024
mapreduce.reduce.memory.mb 从调度器（scheduler）为每个Reduce Task请求的内存数，默认1024
yarn.app.mapreduce.am.resource.cpu-vcores MR AppMaster需要的虚拟CPU核数，默认为1536
mapreduce.map.cpu.vcores 从调度器（scheduler）为每个Map Task请求的虚拟CPU核数，默认1
mapreduce.reduce.cpu.vcores 为每个Map Reduce请求的虚拟CPU核数，默认1

链式Job也不能使用Uber模式执行，即使满足了上面的情况也不能。因为链式作业会并发执行不同资源需求的map task和reduce task。链式Job是指集成了org.apache.hadoop.mapreduce.lib.chain.ChainReducer和org.apache.hadoop.mapreduce.lib.chain.ChainMapper类的用户Map或Reduce程序。

yarn.app.mapreduce.am.resource.mb和yarn.app.mapreduce.am.resource.cpu-vcores是在yarn框架的级别，其他四个关于内存和CPU的配置是和具体每个Mapreduce任务有关，如果Mapreduce所需的资源大于Yarn框架定义的资源数量，则不能当成“小”Job使用uber mode执行了。

2，Non-Uber mode：

Uber只能执行一小部门的任务，在大数据环境下，大部分任务仍然运行在Non-Uber模式下，MRAppMaster将一个作业的map task和reduce task分为四种状态：

              pending：刚启动但尚未向ResourceManager发送资源请求
              scheduled：已经向ResourceManager发送资源请求，但尚未分配到资源
              assigned：已经分配到了资源且正在运行
              completed：已经运行完成。

MRAppMaster初始化之后，会产生一系列的Map Task和Reduce Task。

Map Task的生命周期是：

scheduled->assigned->completed

Reduce Task的生命周期是：

pending->scheduled->assigned->completed

上面我们可以看到，Reduce Task比Map Task多一个pending的状态，主要是因为Reduce Task需要依赖Map Task的输出，为了防止Reduce Task启动过早造成资源浪费，MRAppMaster让刚启动的Reduce Task处于pending状态，这样可以根据Map Task的运行情况和具体的配置来调整Reduce Task状态（pengding到scheduled中相互转移），以下几个参数是有来配置Reduce Task的启动时机的：

mapreduce.job.reduce.slowstart.completedmaps map task完整了多少比率才开始为reduce task生成资源
yarn.app.mapreduce.am.job.reduce.rampup.limit 在maps task已经完成，启动reduce task的比率。默认为0.5

  org.apache.hadoop.mapreduce.MRJobConfig:

 /**
   * Limit reduces starting until a certain percentage of maps have finished.
   *  Percentage between 0.0 and 1.0
   */
  public static final String MR_AM_JOB_REDUCE_RAMPUP_UP_LIMIT = 
    MR_AM_PREFIX  + "job.reduce.rampup.limit";
  public static final float DEFAULT_MR_AM_JOB_REDUCE_RAMP_UP_LIMIT = 0.5f;

yarn.app.mapreduce.am.job.reduce.preemption.limit 当map task不能申请资源时，map task最多可以抢占reduce task资源的比率。默认为0.5

  org.apache.hadoop.mapreduce.MRJobConfig:
  /** 
   * Limit on the number of reducers that can be preempted to ensure that at
   *  least one map task can run if it needs to. Percentage between 0.0 and 1.0
   */
  public static final String MR_AM_JOB_REDUCE_PREEMPTION_LIMIT = 
    MR_AM_PREFIX  + "job.reduce.preemption.limit";
  public static final float DEFAULT_MR_AM_JOB_REDUCE_PREEMPTION_LIMIT = 0.5f;

推荐阅读

timestamp
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
default
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
default
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
default
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
default
HBase客户端Table类中getRpcTimeout方法的应用与编程实例解析

HBase客户端Table类中getRpcTimeout方法的应用与编程实例解析 ... [详细]

蜡笔小新 2024-10-31 20:02:25
input
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
input
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
default
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
default
每日Java基础精炼：开发者的日常学习笔记

每日Java基础精炼：开发者的日常学习笔记 ... [详细]

蜡笔小新 2024-11-10 13:04:01
ip
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
default
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
text
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
ip
Java中不同类型的常量池（字符串常量池、Class常量池和运行时常量池）的对比与关联分析

在研究Java虚拟机的过程中，笔者发现存在多种类型的常量池，包括字符串常量池、Class常量池和运行时常量池。通过查阅CSDN、博客园等相关资料，对这些常量池的特性、用途及其相互关系进行了详细探讨。本文将深入分析这三种常量池的差异与联系，帮助读者更好地理解Java虚拟机的内部机制。 ... [详细]

蜡笔小新 2024-11-08 10:38:37
input
Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？

Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？ ... [详细]

蜡笔小新 2024-11-08 09:14:47
default
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59

西红柿

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章