热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

一图胜千言:大数据入门必备的16张数据流转图(建议收藏)

前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。以下是我在学大数据时学大数据不得不

前言


大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。

以下是我在学大数据时学大数据不得不背的15张数据流转图

首先必须给HDFS读写数据图排面,学习大数据开发第一座的大山!

1.HDFS读写数据

HDFS读数据图:

img

HDFS写数据图:

image-20210629202337448

MR的洗牌机制也是绕不过去的

2.MapReduce 的 Shuffle 过程

MapReduce 的详细工作流程:

image-20210629202557276

image-20210629202605145

3.Yarn的Job提交流程

image-20210629202717055

4.Yarn 的调度器分类


FIFO 调度器(先进先出调度器)

image-20210629202944975

Capacity Scheduler(容量调度器)

image-20210629202953694

Fair Sceduler(公平调度器)

image-20210629203034024

5.Kafka 架构图

image-20210629203310935
在这里插入图片描述

6.Hive架构图

image-20210629203436724

7.HBase存储结构图

image-20210629203526555

HBase读流程

image-20210629203603384

HBase读流程

image-20210629203612315

Hadoop体系完了,下面是Spark和Flink体系
loading>>>>>>>>>>

8.Spark 的架构与作业提交流程

image-20210629203709905

Spark实现WordCount执行流程图

image-20210629205901054

补充 YARN Client 模式和YARN Cluster模式的区别

在这里插入图片描述

9.Spark 的 两 种 核 心 Shuffle ( HashShuffle 与SortShuffle)的工作流程


(1)未经优化的 HashShuffle

image-20210629204414445

优化后的HashShuffle

image-20210629204539485

(2)普通的 SortShuffle:

image-20210629204649515

开启bypass机制后:

image-20210629204701505

10.SparkSQL 中 RDD、DataFrame、DataSet 三者的区别与联系图解

image-20210629204910494

11.Flink架构模型图

image-20210629205118895

12.Flink任务调度图

image-20210629205134545

13.Flink On Yarn执行流程图

在这里插入图片描述

14.Flink 实现 SQL 解析图

image-20210629211137820

15.Flink 的容错机制

image-20210629211158254

总结

以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~

喜欢的小伙伴欢迎一键三连!!!
我是manor,一枚相信技术改变世界的码农,我们下期再见~

在这里插入图片描述


推荐阅读
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 实践解析可视化开发平台FlinkSever优势
    实践,解析,可,视,化,开发,平台,fli ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • Flink(三)IDEA开发Flink环境搭建与测试
    一.IDEA开发环境1.pom文件设置1.8 ... [详细]
  • 目录摘要SQL的现在NoSQL,NotOnlySQL要分布式,也要SQL总结引用摘要毫不夸张的说,关系数据库是企业软件系统的核心,企业形形色色信息行为的背后,都有关系数据库的支撑。 ... [详细]
  • 深入理解Kafka服务端请求队列中请求的处理
    本文深入分析了Kafka服务端请求队列中请求的处理过程,详细介绍了请求的封装和放入请求队列的过程,以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析,帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • HadoopYARN集群是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。其核心是通过一个全局的资源管理器来实现分离资源管理与作业调度监控。Hadoop ... [详细]
  • hbase伪集群搭建
    hbase数据存储有三种跑法,跑在本地磁盘上、跑在伪分布式上、跑在完全分布式上--------额。。。官网的文档挺坑爹的,结合官网、百度、谷歌的各种 ... [详细]
  • hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce ... [详细]
  • 2022.4.2学习成果
    Flink中的编程模型4.1编程模型在Flink,编程模型的抽象层级主要分为以下4种,越往下抽象度越低,编程越复杂,灵活度越高。这里先不一一介绍,后续会做详细说明。这4层中,一般用 ... [详细]
author-avatar
林禎峰佩蓉
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有