热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Flink教程(05)Flink原理简单分析

文章目录01引言02Flink角色03Flink执行流程3.1Standalone版本3.2onyarn04FlinkStreamingDataflow4.1Flink相关词汇4.


文章目录

  • 01 引言
  • 02 Flink角色
  • 03 Flink执行流程
    • 3.1 Standalone版本
    • 3.2 on yarn
  • 04 Flink Streaming Dataflow
    • 4.1 Flink相关词汇
    • 4.2 Operator传递模式
    • 4.3 Operator Chain
    • 4.4 任务槽与槽共享
      • 4.4.1 任务槽(TaskSlot)
      • 4.4.2 槽共享(Slot Sharing)
  • 05 Flink运行时组件
    • 5.1 作业管理器(JobManager)
    • 5.2 任务管理器(TaskManager)
    • 5.3 资源管理器(ResourceManager)
    • 5.4 分发器(Dispatcher)
  • 06 Flink执行图(ExecutionGraph)
    • 6.1 原理


01 引言

在前面的博客,我们运行了简单的Flink案例了,有兴趣的同学可以参阅下:


  • 《Flink教程(01)- Flink知识图谱》
  • 《Flink教程(02)- Flink入门》
  • 《Flink教程(03)- Flink环境搭建》
  • 《Flink教程(04)- Flink入门案例》

本文简单讲解Flink的原理。


02 Flink角色

在实际生产中,Flink 都是以集群在运行,在运行的过程中包含了两类进程。

Flink有如下角色:


  • JobManager:它扮演的是集群管理者的角色,负责调度任务、协调 checkpoints、协调故障恢复、收集Job 的状态信息,并管理Flink集群中的从节点 TaskManager;
  • TaskManager:实际负责执行计算的 Worker,在其上执行Flink Job的一组 Task;TaskManager还是所在节点的管理员,它负责把该节点上的服务器信息比如内存、磁盘、任务运行情况等向 JobManager 汇报。
  • Client:用户在提交编写好的 Flink工程时,会先创建一个客户端再进行提交,这个客户端就是 Client

在这里插入图片描述

在这里插入图片描述


03 Flink执行流程


3.1 Standalone版本

在这里插入图片描述


3.2 on yarn

在这里插入图片描述
上述流程:


  1. ClientHDFS上传FlinkJar包和配置 ;
  2. ClientYarn ResourceManager提交任务并申请资源;
  3. ResourceManager分配Container资源并启动ApplicationMaster,然后AppMaster加载FlinkJar包和配置构建环境,启动JobManager;
  4. ApplicationMasterResourceManager申请工作资源,NodeManager加载FlinkJar包和配置构建环境并启动TaskManager;
  5. TaskManager启动后向JobManager发送心跳包,并等待JobManager向其分配任务。

04 Flink Streaming Dataflow


4.1 Flink相关词汇

官网关于Flink的词汇表:https://ci.apache.org/projects/flink/flink-docs-release-1.11/concepts/glossary.html#glossary


  • Dataflow:Flink程序在执行的时候会被映射成一个数据流模型
  • Operator:数据流模型中的每一个操作被称作Operator,Operator分为:Source/Transform/Sink
  • Partition:数据流模型是分布式的和并行的,执行中会形成1~n个分区
  • Subtask:多个分区任务可以并行,每一个都是独立运行在一个线程中的,也就是一个Subtask子任务
  • Parallelism:并行度,就是可以同时真正执行的子任务数/分区数

在这里插入图片描述


4.2 Operator传递模式

数据在两个Operator(算子)之间传递的时候有两种模式:


  • One to One模式:两个operator用此模式传递的时候,会保持数据的分区数和数据的排序;如上图中的Source1Map1,它就保留的Source的分区特性,以及分区元素处理的有序性。
  • Redistributing 模式:这种模式会改变数据的分区数 ,每个一个operator subtask会根据选择transformation把数据发送到不同的目标subtasks,比如keyBy()会通过hashcode重新分区,broadcast()rebalance()方法会随机重新分区。

4.3 Operator Chain

在这里插入图片描述
客户端在提交任务的时候会对Operator进行优化操作,能进行合并的Operator会被合并为一个Operator,合并后的Operator称为Operator chain,实际上就是一个执行链,每个执行链会在TaskManager上一个独立的线程中执行–就是SubTask


4.4 任务槽与槽共享


4.4.1 任务槽(TaskSlot)

在这里插入图片描述
每个TaskManager是一个JVM的进程,为了控制一个TaskManager(worker)能接收多少个task,Flink通过Task Slot来进行控制。


  • TaskSlot数量是用来限制一个TaskManager工作进程中可以同时运行多少个工作线程;
  • TaskSlot是一个TaskManager 中的最小资源分配单位;
  • 一个 TaskManager中有多少个 TaskSlot就意味着能支持多少并发的Task处理。

Flink将进程的内存进行了划分到多个slot中,内存被划分到不同的slot之后可以获得如下好处:


  • TaskManager最多能同时并发执行的子任务数是可以通过TaskSolt数量来控制的;
  • TaskSolt有独占的内存空间,这样在一个TaskManager中可以运行多个不同的作业,作业之间不受影响。

4.4.2 槽共享(Slot Sharing)

在这里插入图片描述
Flink允许子任务共享插槽,即使它们是不同任务(阶段)的子任务(subTask),只要它们来自同一个作业

比如上图图左下角中的mapkeyBysink 在一个 TaskSlot里执行以达到资源共享的目的。

允许插槽共享有两个主要好处:


  • 资源分配更加公平,如果有比较空闲的slot可以将更多的任务分配给它;
  • 有了任务槽共享,可以提高资源的利用率。

注意:


  • slot是静态的概念,是指taskmanager具有的并发执行能力;
  • parallelism是动态的概念,是指程序运行时实际使用的并发能力。

05 Flink运行时组件

在这里插入图片描述

Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:


  • 作业管理器(JobManager):分配任务、调度checkpoint做快照
  • 任务管理器(TaskManager):主要干活的
  • 资源管理器(ResourceManager):管理分配资源
  • 分发器(Dispatcher):方便递交任务的接口,WebUI

因为Flink是用JavaScala实现的,所以所有组件都会运行在Java虚拟机上,每个组件的职责如下:


5.1 作业管理器(JobManager)


  • 控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。
  • JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包;
  • JobManager 会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(ExecutionGraph),包含了所有可以并发执行的任务;
  • JobManager会向资源管理器(ResourceManager)请求执行任务必要的资源,也就是任务管理器(TaskManager)上的插槽(slot),一旦它获取到了足够的资源,就会将执行图分发到真正运行它们的TaskManager上,而在运行过程中,JobManager会负责所有需要中央协调的操作,比如说检查点(checkpoints)的协调。

5.2 任务管理器(TaskManager)


  • Flink中的工作进程,通常在Flink中会有多个TaskManager运行,每一个TaskManager都包含了一定数量的插槽(slots)。插槽的数量限制了TaskManager能够执行的任务数量。
  • 启动之后,TaskManager会向资源管理器注册它的插槽;收到资源管理器的指令后,TaskManager就会将一个或者多个插槽提供给JobManager调用。JobManager就可以向插槽分配任务(tasks)来执行了。
  • 在执行过程中,一个TaskManager可以跟其它运行同一应用程序的TaskManager交换数据。

5.3 资源管理器(ResourceManager)


  • 主要负责管理任务管理器(TaskManager)的插槽(slot),TaskManger 插槽是Flink中定义的处理资源单元。
  • Flink为不同的环境和资源管理工具提供了不同资源管理器,比如YARNMesosK8s,以及standalone部署。
  • JobManager申请插槽资源时,ResourceManager会将有空闲插槽的TaskManager分配给JobManager。如果ResourceManager没有足够的插槽来满足JobManager的请求,它还可以向资源提供平台发起会话,以提供启动TaskManager进程的容器。

5.4 分发器(Dispatcher)


  • 可以跨作业运行,它为应用提交提供了REST接口;
  • 当一个应用被提交执行时,分发器就会启动并将应用移交给一个JobManager;
  • Dispatcher也会启动一个Web UI,用来方便地展示和监控作业执行的信息;
  • Dispatcher在架构中可能并不是必需的,这取决于应用提交运行的方式。

06 Flink执行图(ExecutionGraph)

Flink程序直接映射成的数据流图是StreamGraph,也被称为逻辑流图,因为它们表示的是计算逻辑的高级视图,为了执行一个流处理程序,Flink需要将逻辑流图转换为物理数据流图(也叫执行图),详细说明程序的执行方式。

Flink 中的执行图可以分成四层:StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图:
在这里插入图片描述


6.1 原理

Flink执行executor会自动根据程序代码生成DAG数据流图;

Flink 中的执行图可以分成四层:StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图:


  • StreamGraph :是根据用户通过 Stream API编写的代码生成的最初的图,表示程序的拓扑结构
  • JobGraph :StreamGraph经过优化后生成了JobGraph,提交给JobManager的数据结构。主要的优化为,将多个符合条件的节点 chain在一起作为一个节点,这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。
  • ExecutionGraph :JobManager根据 JobGraph生成ExecutionGraphExecutionGraphJobGraph的并行化版本,是调度层最核心的数据结构。
  • 物理执行图 :JobManager 根据 ExecutionGraphJob进行调度后,在各个TaskManager 上部署 Task后形成的“图”,并不是一个具体的数据结构。

可以简单理解为:


  • StreamGraph:最初的程序执行逻辑流程,也就是算子之间的前后顺序–在Client上生成;
  • JobGraph:将OneToOneOperator合并为OperatorChain–在Client上生成
  • ExecutionGraph:将JobGraph根据代码中设置的并行度和请求的资源进行并行化规划!–在JobManager上生成
  • 物理执行图:将ExecutionGraph的并行计划,落实到具体的TaskManager上,将具体的SubTask落实到具体的TaskSlot内进行运行。

推荐阅读
  • 阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Windows7 64位系统安装PLSQL Developer的步骤和注意事项
    本文介绍了在Windows7 64位系统上安装PLSQL Developer的步骤和注意事项。首先下载并安装PLSQL Developer,注意不要安装在默认目录下。然后下载Windows 32位的oracle instant client,并解压到指定路径。最后,按照自己的喜好对解压后的文件进行命名和压缩。 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • 本文介绍了一个适用于PHP应用快速接入TRX和TRC20数字资产的开发包,该开发包支持使用自有Tron区块链节点的应用场景,也支持基于Tron官方公共API服务的轻量级部署场景。提供的功能包括生成地址、验证地址、查询余额、交易转账、查询最新区块和查询交易信息等。详细信息可参考tron-php的Github地址:https://github.com/Fenguoz/tron-php。 ... [详细]
  • 图像因存在错误而无法显示 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • Spring框架《一》简介
    Spring框架《一》1.Spring概述1.1简介1.2Spring模板二、IOC容器和Bean1.IOC和DI简介2.三种通过类型获取bean3.给bean的属性赋值3.1依赖 ... [详细]
author-avatar
mobiledu2502873797
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有