热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

hadoop的组成

hadoop1.x组成:MapReduce(计算资源调度)  HDFS(数据存储)  Common࿰

hadoop1.x组成:

  MapReduce(计算+资源调度)
  HDFS(数据存储)
  Common(辅助工具,HDFS和MR共有的常用的工具包模块!)

hadoop1.x时:MapReduce同时处理业务逻辑运算和资源调度,耦合性较大

hadoop2.x组成:

  MapReduce(计算)
  Yarn(资源调度)
  HDFS(数据存储)
  Common(辅助工具,HDFS和MR共有的常用的工具包模块!)

  hadoop2.x增加了Yarn,Yarn只负责资源调度,MapReduce只负责运算
  将资源调度和管理进行分离!由统一的资源调度平台YARN进行大数据计算资源的调度!
  提升了Hadoop的通用性!Hadoop搭建的集群中的计算资源,不仅可以运行Hadoop中的MR程序!也可以运行其他计算框架的程序!

HDFS

负责大数据的存储
  核心进程:
  必须进程:
   Namenode(1个): 负责文件,名称等元数据(属性信息)的存储!
   文件名,大小,文件切分了多少块(block),创建和修改时间等!
    职责: 接受客户端的请求!
    接受DN的请求!
    向DN分配任务!

   Datanode(N个): 负责文件中数据的存储!
    职责: 负责接受NM分配的任务!
    负责数据块(block)的管理(读,写)!

  可选进程:
   SecondaryNamenode(N个): 负责辅助NameNode工作!

MapReduce

  MapReduce(编程规范): 程序中有Mapper(简单处理)和Reducer(合并)

  遵循MapReduce的编程规范,编写的程序,打包后,称为一个Job(任务)!
  Job需要提交到YARN上,向YARN申请计算资源,运行Job中的Task(进程)!
  Job会先创建一个进程MRAppMaster(mapreduce 应用管理者),由MRAppMaster向YARN申请资源!
  MRAppMaster负责监控Job中各个Task运行情况,进行容错管理!

YARN

  YARN负责集群中所有计算资源的管理和调度!

   常见进程:
    ResourceManager(1个): 负责整个集群所有资源的管理!
     职责: 负责接受客户端的提交Job的请求!
     负责向NM分配任务!
     负责接收NM上报的信息!

    NodeManager(N个): 负责单台计算机所有资源的管理!
     职责: 负责和RM进行通信,上报本机中的可用资源!
     负责领取RM分配的任务!
     负责为Job中的每个Task分配计算资源!

  概念:
   Container(容器): NodeManager为Job的某个Task分配了2个CPU和2G内存的计算资源!
   为了防止当前Task在使用这些资源期间,被其他的task抢占资源!
   将计算资源,封装到一个Container中,在Container中的资源,会被暂时隔离!
   无法被其他进程所抢占!

   当前Task运行结束后,当前Container中的资源会被释放!允许其他task来使用!


推荐阅读
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 深入解析:主流开源分布式文件系统综述
    本文详细探讨了几款主流的开源分布式文件系统,包括HDFS、MooseFS、Lustre、GlusterFS和CephFS,重点分析了它们的元数据管理和数据一致性机制,旨在为读者提供深入的技术见解。 ... [详细]
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
  • 全面解读Apache Flink的核心架构与优势
    Apache Flink作为大数据处理领域的新兴力量,凭借其独特的流处理能力和高效的批处理性能,迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景,为大数据处理提供新的视角。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
author-avatar
辰小坏2602938945
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有