热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MapReduce调优总结与拓展

本文为《hadoop技术内幕:深入解析MapReduce架构设计与实现原理》一书第9章《Hadoop性能调优》的总结。图1Hadoop层次结构图从管理员角度进行调优1.硬件选择ma

本文为《hadoop技术内幕:深入解析MapReduce架构设计与实现原理》一书第9章《Hadoop性能调优》的总结。

技术分享

图1 Hadoop层次结构图

从管理员角度进行调优

1.硬件选择

master配置(可靠性,内存,CPU主频等)优于slave。

2.操作系统参数调优

  1)增大同时打开的文件描述符和网络连接上限

    ulimit 将允许同时打开的文件描述符数增大到一个合适的值。

    net.core.somaxconn

    定义了系统中每一个端口最大的监听队列的长度,这是个全局的参数,默认值为128(通常要增加大1024或更多)。

    关于这个参数,见这篇博文:http://blog.csdn.net/taolinke/article/details/6800979

  2)关闭swap分区

    避免使用swap分区。设置vm.swappiness

  3)设置合理的预读取缓冲大小

    blockdev命令

  4)文件系统选择与配置

  不同的文件系统会有一定的差别。

  在Linux文件系统中,启动noatime属性。具体操作见这篇文章:http://www.cnblogs.com/allegro/archive/2011/04/18/2019466.html

  5)I/O调度器选择

  详情可参见AMD的白皮书《Hadoop performance tuning guide》

3.JVM参数调优

  关键词:JVM FLAGS、垃圾回收机制。参见《Hadoop performance tuning guide》

4.Hadoop参数调优

  1)合理规划资源

    a设置合理的槽位数目

    b编写健康监测脚本

  2)调整心跳配置

    a调整心跳间隔

    b启用带外心跳

  3)磁盘块配置

  4)设置合理的RPCHandler和HTTP线程数目

    a配置RPC Handler数目

    b配置HTTP线程数目

  5)慎用黑名单机制

    黑名单节点数目越多,系统吞吐率和计算能力越低。

  6)启用批量任务调度

  7)选择合适的压缩算法

    mapred.compress.map.output 设为true

    设置mapred.map.output.compression.codec的值为合适的值。

  8)启用预读取机制

从用户角度进行调优

1.应用程序编写规范

  1)设置combiner,作用是减少map端的中间输出。

  2)选择合适的Writable类型,Map Task和Reduce Task的输入输出都是Writable类型。

2.作业级别参数调优

   1)规划合理的任务数目

  2)增加输入文件副本数目

    输入文件副本少,一个可能的后果是当多个任务并行读取一个副本时,会出现读取瓶颈。

    在hdfs-site.xml中修改dfs.replication的值。

  3)启动推测执行机制

    将运行较慢的任务在另一个节点上启动,2个任务同时运行。其中1个提前完成后会将另一个杀死。

    属性:mapred.map.tasks.speculative.execution 默认true

  4)设置容忍度

    分为作业级别和任务级别的失败容忍。

    属性:mapred.max.map.failures.percent 默认0,如果是5表示5%

         mapred.map.max.attempts 默认为4

  5)适当打开JVM重用功能

    当任务较小时,避免JVM重复启动占用很多时间。mapred.job.reuse.jvm.num.tasks 默认为1

  6)设置任务超时时间

    超时之后,TaskTracker将任务杀死,然后在另一个节点重新启动一个。

    属性设置:

    mapred.task.timeout 默认60 000(单位毫秒,也就是10分钟)

  7)合理使用DistributedCache

    了解下DistributedCache就知道该怎么用这个了。具体细节是:在调用任务前将文件上传到HDFS可以在作业运行期间将DistributedCache内的这些文件下载到public目录下,好处是:public目录下的文件是共享的,后续任务不必重新下载。

  8)合理控制Reduce Task的启动时机

    注意:启动过早会占用slot资源,造成slot Hoarding现象;启动过晚会造成资源获取较晚从而延长作业运行时间。

    旧版  mapred.reduce.slowstart.completed.maps  默认值0.05

    新版  mapreduce.job.reduce.slowstart.completed.maps  默认0.05

  9)跳过坏记录

    mapred.skip.attempts.to.start.skipping 当任务失败次数达到此值时,才会进入skip mode,即启用跳过坏记录功能。

    mapred.skip.map.skip.records  最多允许跳过的坏记录的个数

    mapred.skip.reduce.max.skip.groups  

    mapred.skip.out.dir    顾名思义

  10)提高作业优先级

   解释一下怎么设置作业的优先级:设置mapred.job.priority(默认NORMAL)或者mapreduce.job.priority(NORMAL)。总共有5个优先级可选:VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW。

   优先级主要作用在于作业调度器会根据优先级分配资源(slot数目或者在YARN中更加灵活的内存容量)。

3.任务级别参数调优

  1)Map Task调优

    高效利用环形缓冲区。具体方法是设置合适的io.sort.record.percent,这个属性的含义是索引占buffer的比例。索引或者数据达到了缓冲区的io.sort.spill.percent时,就会触发flush,将数据读入磁盘。根据索引大小(一般为16B)和key/value大小,设置合适的io.sort.record.percent值=16/(16+R)(R为key/value大小),这样就可以最大限度利用圆形缓冲区了。    

  2)Reduce Task调优

    主要目的是减少磁盘的写入。

    写入磁盘的条件为:

    a内存使用率超过heapsize*(mapred.job.shuffle.input.buffer.percent)达到mapred.job.shuffle.merge.percent(默认为0.66);

    b内存中文件数目超过mapred.inmem.merge.percent.threshold(默认是1000);

    c文件大小超过阈值heapsize*(mapred.job.shuffle.input.buffer.percent)*0.25。

    通过调整这些属性值,可以控制磁盘的写入。

MapReduce调优总结与拓展


推荐阅读
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • Mac OS 升级到11.2.2 Eclipse打不开了,报错Failed to create the Java Virtual Machine
    本文介绍了在Mac OS升级到11.2.2版本后,使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题,并提供了解决方法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文讲述了作者通过点火测试男友的性格和承受能力,以考验婚姻问题。作者故意不安慰男友并再次点火,观察他的反应。这个行为是善意的玩人,旨在了解男友的性格和避免婚姻问题。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 在project.properties添加#Projecttarget.targetandroid-19android.library.reference.1..Sliding ... [详细]
author-avatar
瓯源鞋楦头尾自动修平机
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有