热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MapReduce切片机制源码分析

 总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建

 

总体来说大概有以下2个大的步骤

1.连接集群(yarnrunner或者是localjobrunner)

2.submitter.submitJobInternal()在该方法中会创建提交路径,计算切片(writesplits),生成job.xml在路径下,提交job等

下面用windows下执行mr程序的过程进行源码分析,先把你的hadoop所在的盘符下的tmp文件清空.我的是d:/tmp

1.debug执行driver,进入waitForCompletion,然后进入conect(),可以看到该方法创建了一个新的集群对象

《MapReduce 切片机制源码分析》

进入之后,来到Cluster类的构造方法里的initialize(),这个方法内部先初始化了包含着ClientProtocolProvider的list集合,然后遍历该集合,ClientProtocolProvider根据传入的conf来生成我们需要的ClientProtocol,这个对象用于客户端通信,该类的getClient()会返回创建完成的ClientProtocol实例

《MapReduce 切片机制源码分析》

到这可以确定,connect方法的作用就是连接集群,本地的话就是localJobRunner,yarn上的话就是yarnrunner

《MapReduce 切片机制源码分析》

生成的submitter是真正用于提交job的对象,接下来进入关键的submitter.submitJobInternal(Job.this, cluster),其内部第一行代码执行了checkSpecs(),该方法中用checkOutputSpecs()检查输出路径,

《MapReduce 切片机制源码分析》

回到submitJobInternal(),getStagingDir()初始化提交数据的路径,还有一些权限管理的东西

《MapReduce 切片机制源码分析》

 这行代码执行完毕后,来到d:/tmp,发现果然创建了路径,当然目前还创建jobId,切片,所以目录是空的

 《MapReduce 切片机制源码分析》

 接着向下执行完getNewJobId,生成了一个jobId,这个jobId将会赋给submitJobDir用于创建路径

《MapReduce 切片机制源码分析》

 《MapReduce 切片机制源码分析》

接着向下执行,进入copyAndConfigureFiles(),该方法会创建路径并做一些上传的工作,包括各种配置文件,如果连接的yarn还会上传jar包

《MapReduce 切片机制源码分析》

依次进入uploadResource()———>uploadResourcesInternal

在uploadResourceInternal中执行完mkdirs,发现生成了jobId的目录,当然该目录仍然是空的

《MapReduce 切片机制源码分析》

好了,接下来仍然回到submitJobInternal(),配置文件名为job.xml(此时并没有真正生成文件在磁盘目录下)

《MapReduce 切片机制源码分析》

仅接着进入wirteSplits(),切片从这里开始

《MapReduce 切片机制源码分析》

进入writeSplits()后再进入writeNewSplits(),进入input.getSplits(job)中,切片过程都在这个方法里了,

《MapReduce 切片机制源码分析》

先分析long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));求最大值,getFormatMinSplitSize()的返回值是1,getMinSplitSize(job)返回的是你在mapred-site.xml中配置的

mapreduce.input.fileinputformat.split.minsize的value值,默认是0,所以long minsize=1

《MapReduce 切片机制源码分析》

而 long maxSize = getMaxSplitSize(job);中getMaxSplitSize返回的是Long的最大值所以maxSize=9223372036854775807

《MapReduce 切片机制源码分析》

接着向下执行,可以看到此时的blocksize是32MB(因为是本地模式),

《MapReduce 切片机制源码分析》

进入computeSplitSize()这是切片中我感觉最诡异的地方,上面我们说了minSize=1,maxSIze=Long.MaxValue>blockSize=32*1024*1024

《MapReduce 切片机制源码分析》

所以返回值是blockSize,这也是为什么默认的切片大小等同于blockSize,接着向下就是切几片的问题,可以看到只有当字节数除以切片大小大于1.1时才会增加一片,否则整体作为一个切片

《MapReduce 切片机制源码分析》

所以当剩余的大小除以切片数小于1.1时,这些剩余的字节将会整体作为一个切片加入切片的list中

回到submitJobInternal()执行完writesplite后,发现目录下多了些切片的规划文件,这些文件将会用来计算开启的maptask个数

《MapReduce 切片机制源码分析》

接着向下执行完writeConf会把job.xml写入到目录下

《MapReduce 切片机制源码分析》

 

 现在这些文件马上要消失了,因为接下来要执行submitJob(),提交后文件会被清除

 《MapReduce 切片机制源码分析》

提交后会生成一个hadoop-用户的目录,查看了下这个目录也是空的,大概是用来记录连接记录之类的吧

《MapReduce 切片机制源码分析》

到这提交过程基本就完成了,等待执行MapReduce程序即可

 


推荐阅读
  • 主调|大侠_重温C++ ... [详细]
  • 深入解析 Android IPC 中的 Messenger 机制
    本文详细介绍了 Android 中基于消息传递的进程间通信(IPC)机制——Messenger。通过实例和源码分析,帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]
  • 本文详细介绍了如何在 Android 中使用值动画(ValueAnimator)来动态调整 ImageView 的高度,并探讨了相关的关键属性和方法,包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]
  • CentOS 7.6环境下Prometheus与Grafana的集成部署指南
    本文旨在提供一套详细的步骤,指导读者如何在CentOS 7.6操作系统上成功安装和配置Prometheus 2.17.1及Grafana 6.7.2-1,实现高效的数据监控与可视化。 ... [详细]
  • 本文详细介绍了Java库XChart中的XYSeries类下的setLineColor()方法,并提供了多个实际应用场景的代码示例。 ... [详细]
  • YB02 防水车载GPS追踪器
    YB02防水车载GPS追踪器由Yuebiz科技有限公司设计生产,适用于车辆防盗、车队管理和实时追踪等多种场合。 ... [详细]
  • 本文探讨了如何通过预处理器开关选择不同的类实现,并解决在特定情况下遇到的链接器错误。 ... [详细]
  • 在 Android 开发中,通过 Intent 启动 Activity 或 Service 时,可以使用 putExtra 方法传递数据。接收方可以通过 getIntent().getExtras() 获取这些数据。本文将介绍如何使用 RoboGuice 框架简化这一过程,特别是 @InjectExtra 注解的使用。 ... [详细]
  • 深入解析动态代理模式:23种设计模式之三
    在设计模式中,动态代理模式是应用最为广泛的一种代理模式。它允许我们在运行时动态创建代理对象,并在调用方法时进行增强处理。本文将详细介绍动态代理的实现机制及其应用场景。 ... [详细]
  • 深入解析ESFramework中的AgileTcp组件
    本文详细介绍了ESFramework框架中AgileTcp组件的设计与实现。AgileTcp是ESFramework提供的ITcp接口的高效实现,旨在优化TCP通信的性能和结构清晰度。 ... [详细]
  • CentOS 6.8 上安装 Oracle 10.2.0.1 的常见问题及解决方案
    本文记录了在 CentOS 6.8 系统上安装 Oracle 10.2.0.1 数据库时遇到的问题及解决方法,包括依赖库缺失、操作系统版本不兼容、用户权限不足等问题。 ... [详细]
  • 本文介绍了如何通过在数据库表中增加一个字段来记录文章的访问次数,并提供了一个示例方法用于更新该字段值。 ... [详细]
  • 请看|间隔时间_Postgresql 主从复制 ... [详细]
  • NFS(Network File System)即网络文件系统,是一种分布式文件系统协议,主要用于Unix和类Unix系统之间的文件共享。本文详细介绍NFS的配置文件/etc/exports和相关服务配置,帮助读者理解如何在Linux环境中配置NFS客户端。 ... [详细]
  • 我有一个SpringRestController,它处理API调用的版本1。继承在SpringRestControllerpackagerest.v1;RestCon ... [详细]
author-avatar
偶们滴小圈子6868
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有