热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop基础学习笔记系列(三)Hadoop堆栈

目录1基本Hadoop组件2应用和框架(在基本组件之上)3HDFS设计最初的设计Hadoop2的HDFS4MR框架和YARNMR框架最初的MR框架下一代

目录

  • 1 基本Hadoop组件
  • 2 应用和框架(在基本组件之上)
  • 3 HDFS设计
    • 最初的设计
    • Hadoop2的HDFS
  • 4 MR框架和YARN
    • MR框架
    • 最初的MR框架
    • 下一代:YARN


1 基本Hadoop组件
  • Hadoop Common
  • HDFS
  • YARN
  • MR在这里插入图片描述

2 应用和框架(在基本组件之上)
  • HBase
    支持大型表的可扩展数据仓库
  • Hive
    数据仓库基础设施,提供数据摘要和即席查询
  • Pig
    高级数据流语言和并行计算执行框架
  • Spark
    快速通用的计算引擎,可以使用HDFS文件系统。
    ![[Pasted image 20220213222106.png]]

3 HDFS设计

最初的设计


  • 可扩展的分布式文件系统
  • 使用节点(nodes)将数据分布在本地磁盘上
  • 多个低成本商品磁盘,高performance

goal:

  • resilience(快速恢复的能力)(因为有多个磁盘工作,要防止其中的磁盘failure)
  • 可扩展
  • 本地应用
  • 轻量级

设计
![[Pasted image 20220213224304.png]]

  • 多个datanode,data存储在datanode中,默认会复制三份。作用:管理存储、为用户提供读写request,数据块的增删改
  • 单个namenode![[Pasted image 20220213224547.png]]

Hadoop2的HDFS

HDFS Federation
存在多个namenode,可以增加命名空间的可扩展性以及performance,同时可以隔离应用,这样在使用应用的时候就不会影响整个文件系统。

  • 多个namemode server
  • 多个命名空间(你真的知道什么是 “命名空间” 吗? - 知乎 (zhihu.com))
  • 数据存在数据块池中(block pool)
  • 高可用性(冗余namenode)
  • 异构存储和归档存储(heterogeneous storage and archival storage)
    ![[Pasted image 20220213230205.png]]

4 MR框架和YARN

MR框架

mapreduce原理_mapreduce执行原理详解,各个阶段做了什么?_weixin_39583029的博客-CSDN博客
深入浅出讲解 MapReduce_哔哩哔哩_bilibili
MapReduce shuffle过程详解
![[Pasted image 20220213230853.png]]

  • 软件框架——为了编写并行数据处理应用
    ![[Pasted image 20220213232746.png]]

优点:

  • MR计算和HDFS存储节点是same,直接在datanode上进行计算,不用移动data

最初的MR框架


  • 单个 jobtracker
  • 每个job一个tasktracker
    ![[Pasted image 20220213233152.png]]

下一代:YARN


  • 将资源管理和job计划&监控分离
  • Global ResourceManager
  • 每个节点都有NodeManager
  • 每个应用都有ApplicationMaster
    ![[Pasted image 20220213233530.png]]

YARN的其他特征

  • 高可用的RM:备用RM
  • TimeLine Server
  • Cgroups:管理容器使用的资源
  • Secure Container

推荐阅读
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 分布式一致性算法:Paxos 的企业级实战
    一、简介首先我们这个平台是ES专题技术的分享平台,众所周知,ES是一个典型的分布式系统。在工作和学习中,我们可能都已经接触和学习过多种不同的分布式系统了,各 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 深入理解Spark框架:RDD核心概念与操作详解
    RDD是Spark框架的核心计算模型,全称为弹性分布式数据集(Resilient Distributed Dataset)。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作,包括创建、转换和行动操作等,帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段,进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序,然后计算相邻日期之间的差值,接着按用户ID分组并累加连续登录天数,最后求出每个用户的最大连续登录天数。此外,还探讨了该方法在其他领域的应用,如股票市场中最大连续涨停天数的分析。 ... [详细]
  • 9月10日,ShanghaiApacheSparkMeetup聚会在上海通茂大酒店成功举办。本次活动邀请到运营商和高校讲师来分享经验,主题覆盖了从Spark研发到应用的各种不同视角 ... [详细]
  • 数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]
  • FileBeat + Flume + Kafka + HDFS + Neo4j + SparkStreaming + MySQL:【案例】三度关系推荐V1.0版本11:每周一计算最近一月主播视频评级
    一、数据计算步骤汇总下面我们通过文字梳理一下具体的数据计算步骤。第一步:历史粉丝关注数据初始化第二步:实时维护粉丝关注数据第三步:每天定 ... [详细]
  • Hadoop——实验七:MapReduce编程实践
    文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本,安装hadoop-eclipse-kepler-plugi ... [详细]
  • 工作原理_一文理解 Spark 基础概念及工作原理
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了一文理解Spark基础概念及工作原理相关的知识,希望对你有一定的参考价值。 ... [详细]
author-avatar
做条温顺的鱼_169
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有