热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

hadoop大数据之shuffle过程

学习hadoop已有一月之余,由于前段时间不太上心,导致脑海之中并没有留下什么映像,但是这两天的集中学习让我对于mapreduce过程中的shuffle有了一定的了解,所以现在赶紧

学习hadoop已有一月之余,由于前段时间不太上心,导致脑海之中并没有留下什么映像,但是这两天的集中学习让我对于mapreduce过程中的shuffle有了一定的了解,所以现在赶紧记下这难得的感触,不期望能给别人带来感悟什么的,但求给自己留下一个记录和以后的自己留下一个“当初”。

 好了,言归正传,众所周知,hadoop的核心框架就是hdfs跟mapreduce,而hdfs主要负责的就是类似于Windows文件系统类似的存储、读写的职责,其实用unix形容跟贴切,不过原理大题是相同的,然后reduce负责的就是计算这一部分(简单理解),其实说白了就是数据分类,统一等等,了解hadoop的人都知道,数据是经过map的运算过后传递给hadoop的,然后从这里开始,如果不插入combiner的话就可以说已经进入到shuffle过程了,主要过程可以分为如下几步,map——>环型缓冲区——>磁盘文件——>合并文件——>reduce,这就应该可以说是shuffle的过程了,中间涉及了几个要点,当环型缓冲区的数据接近80%时,就会溢出到磁盘文件,当然也有可能产生阻塞现象,也就是缓冲区输出的速度赶不上map输入的速度,这是就会等写到文件先完成然后再进行map输入,在磁盘文件接受到数据后,会对其进行分区,排序等内部实现,然后合并文件时再针对于相同分区,相同组进行排序,然后再输出给reduce。

终于敲完了,发现手机打字好累,这次写的不太严谨,也没有多少干货,不过或多或少还是挤出了一点东西,不求什么,只是想给自己今天的学习做个总结。

不过话说,我的伪分布式集群环境都没有搭好呢,哈哈,下次来个专题就叫《hadoop伪分布式集群搭建及所需软件的提供》,哈哈


推荐阅读
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • 本文探讨了Hive作业中Map任务数量的确定方式,主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数,可以有效控制Map任务的数量,进而优化Hive作业的性能。 ... [详细]
  • 深入解析BookKeeper的设计与应用场景
    本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案,广泛应用于需要高性能和强数据持久性的场景。 ... [详细]
  • MapReduce原理是怎么剖析的
    这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1 ... [详细]
  • 深入解析:主流开源分布式文件系统综述
    本文详细探讨了几款主流的开源分布式文件系统,包括HDFS、MooseFS、Lustre、GlusterFS和CephFS,重点分析了它们的元数据管理和数据一致性机制,旨在为读者提供深入的技术见解。 ... [详细]
  • 大数据时代的机器学习:人工特征工程与线性模型的局限
    本文探讨了在大数据背景下,人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步,传统的特征工程方法面临挑战,文章提出了未来发展的可能方向。 ... [详细]
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
author-avatar
维他柠檬鱼1949
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有