当前位置: 开发笔记 > 编程语言 > 正文

Flink教程（05）Flink原理简单分析

作者：mobiledu2502873797 | 来源：互联网 | 2023-08-18 14:11

文章目录01引言02Flink角色03Flink执行流程3.1Standalone版本3.2onyarn04FlinkStreamingDataflow4.1Flink相关词汇4.

文章目录

01 引言
02 Flink角色
03 Flink执行流程
- 3.1 Standalone版本
- 3.2 on yarn
04 Flink Streaming Dataflow
- 4.1 Flink相关词汇
- 4.2 Operator传递模式
- 4.3 Operator Chain
- 4.4 任务槽与槽共享
- - 4.4.1 任务槽(TaskSlot)
  - 4.4.2 槽共享(Slot Sharing)
05 Flink运行时组件
- 5.1 作业管理器&＃xff08;JobManager&＃xff09;
- 5.2 任务管理器&＃xff08;TaskManager&＃xff09;
- 5.3 资源管理器&＃xff08;ResourceManager&＃xff09;
- 5.4 分发器&＃xff08;Dispatcher&＃xff09;
06 Flink执行图&＃xff08;ExecutionGraph&＃xff09;
- 6.1 原理

01 引言

在前面的博客&＃xff0c;我们运行了简单的Flink案例了&＃xff0c;有兴趣的同学可以参阅下&＃xff1a;

《Flink教程&＃xff08;01&＃xff09;- Flink知识图谱》
《Flink教程&＃xff08;02&＃xff09;- Flink入门》
《Flink教程&＃xff08;03&＃xff09;- Flink环境搭建》
《Flink教程&＃xff08;04&＃xff09;- Flink入门案例》

本文简单讲解Flink的原理。

02 Flink角色

在实际生产中&＃xff0c;Flink 都是以集群在运行&＃xff0c;在运行的过程中包含了两类进程。

Flink有如下角色&＃xff1a;

JobManager&＃xff1a;它扮演的是集群管理者的角色&＃xff0c;负责调度任务、协调 checkpoints、协调故障恢复、收集Job 的状态信息&＃xff0c;并管理Flink集群中的从节点 TaskManager&＃xff1b;
TaskManager&＃xff1a;实际负责执行计算的 Worker&＃xff0c;在其上执行Flink Job的一组 Task&＃xff1b;TaskManager还是所在节点的管理员&＃xff0c;它负责把该节点上的服务器信息比如内存、磁盘、任务运行情况等向 JobManager 汇报。
Client&＃xff1a;用户在提交编写好的 Flink工程时&＃xff0c;会先创建一个客户端再进行提交&＃xff0c;这个客户端就是 Client。

在这里插入图片描述

03 Flink执行流程

3.1 Standalone版本

在这里插入图片描述

3.2 on yarn

在这里插入图片描述
上述流程:

Client向HDFS上传Flink的Jar包和配置 ;
Client向Yarn ResourceManager提交任务并申请资源;
ResourceManager分配Container资源并启动ApplicationMaster,然后AppMaster加载Flink的Jar包和配置构建环境,启动JobManager;
ApplicationMaster向ResourceManager申请工作资源,NodeManager加载Flink的Jar包和配置构建环境并启动TaskManager;
TaskManager启动后向JobManager发送心跳包&＃xff0c;并等待JobManager向其分配任务。

04 Flink Streaming Dataflow

4.1 Flink相关词汇

官网关于Flink的词汇表&＃xff1a;https://ci.apache.org/projects/flink/flink-docs-release-1.11/concepts/glossary.html#glossary

Dataflow&＃xff1a;Flink程序在执行的时候会被映射成一个数据流模型
Operator&＃xff1a;数据流模型中的每一个操作被称作Operator&＃xff0c;Operator分为&＃xff1a;Source/Transform/Sink
Partition&＃xff1a;数据流模型是分布式的和并行的,执行中会形成1~n个分区
Subtask&＃xff1a;多个分区任务可以并行,每一个都是独立运行在一个线程中的,也就是一个Subtask子任务
Parallelism&＃xff1a;并行度,就是可以同时真正执行的子任务数/分区数

在这里插入图片描述

4.2 Operator传递模式

数据在两个Operator(算子)之间传递的时候有两种模式&＃xff1a;

One to One模式&＃xff1a;两个operator用此模式传递的时候&＃xff0c;会保持数据的分区数和数据的排序&＃xff1b;如上图中的Source1到Map1&＃xff0c;它就保留的Source的分区特性&＃xff0c;以及分区元素处理的有序性。
Redistributing 模式&＃xff1a;这种模式会改变数据的分区数 &＃xff0c;每个一个operator subtask会根据选择transformation把数据发送到不同的目标subtasks&＃xff0c;比如keyBy()会通过hashcode重新分区&＃xff0c;broadcast()和rebalance()方法会随机重新分区。

4.3 Operator Chain

在这里插入图片描述
客户端在提交任务的时候会对Operator进行优化操作&＃xff0c;能进行合并的Operator会被合并为一个Operator&＃xff0c;合并后的Operator称为Operator chain&＃xff0c;实际上就是一个执行链&＃xff0c;每个执行链会在TaskManager上一个独立的线程中执行–就是SubTask。

4.4 任务槽与槽共享

4.4.1 任务槽(TaskSlot)

在这里插入图片描述
每个TaskManager是一个JVM的进程&＃xff0c;为了控制一个TaskManager(worker)能接收多少个task&＃xff0c;Flink通过Task Slot来进行控制。

TaskSlot数量是用来限制一个TaskManager工作进程中可以同时运行多少个工作线程;
TaskSlot是一个TaskManager 中的最小资源分配单位;
一个 TaskManager中有多少个 TaskSlot就意味着能支持多少并发的Task处理。

Flink将进程的内存进行了划分到多个slot中&＃xff0c;内存被划分到不同的slot之后可以获得如下好处:

TaskManager最多能同时并发执行的子任务数是可以通过TaskSolt数量来控制的&＃xff1b;
TaskSolt有独占的内存空间&＃xff0c;这样在一个TaskManager中可以运行多个不同的作业&＃xff0c;作业之间不受影响。

4.4.2 槽共享(Slot Sharing)

在这里插入图片描述
Flink允许子任务共享插槽&＃xff0c;即使它们是不同任务(阶段)的子任务(subTask)&＃xff0c;只要它们来自同一个作业。

比如上图图左下角中的map和keyBy和sink 在一个 TaskSlot里执行以达到资源共享的目的。

允许插槽共享有两个主要好处&＃xff1a;

资源分配更加公平&＃xff0c;如果有比较空闲的slot可以将更多的任务分配给它&＃xff1b;
有了任务槽共享&＃xff0c;可以提高资源的利用率。

注意:

slot是静态的概念&＃xff0c;是指taskmanager具有的并发执行能力&＃xff1b;
parallelism是动态的概念&＃xff0c;是指程序运行时实际使用的并发能力。

05 Flink运行时组件

在这里插入图片描述

Flink运行时架构主要包括四个不同的组件&＃xff0c;它们会在运行流处理应用程序时协同工作&＃xff1a;

作业管理器&＃xff08;JobManager&＃xff09;&＃xff1a;分配任务、调度checkpoint做快照
任务管理器&＃xff08;TaskManager&＃xff09;&＃xff1a;主要干活的
资源管理器&＃xff08;ResourceManager&＃xff09;&＃xff1a;管理分配资源
分发器&＃xff08;Dispatcher&＃xff09;&＃xff1a;方便递交任务的接口&＃xff0c;WebUI

因为Flink是用Java和Scala实现的&＃xff0c;所以所有组件都会运行在Java虚拟机上&＃xff0c;每个组件的职责如下&＃xff1a;

5.1 作业管理器&＃xff08;JobManager&＃xff09;

控制一个应用程序执行的主进程&＃xff0c;也就是说&＃xff0c;每个应用程序都会被一个不同的JobManager 所控制执行。
JobManager 会先接收到要执行的应用程序&＃xff0c;这个应用程序会包括&＃xff1a;作业图&＃xff08;JobGraph&＃xff09;、逻辑数据流图&＃xff08;logical dataflow graph&＃xff09;和打包了所有的类、库和其它资源的JAR包&＃xff1b;
JobManager 会把JobGraph转换成一个物理层面的数据流图&＃xff0c;这个图被叫做“执行图”&＃xff08;ExecutionGraph&＃xff09;&＃xff0c;包含了所有可以并发执行的任务&＃xff1b;
JobManager会向资源管理器&＃xff08;ResourceManager&＃xff09;请求执行任务必要的资源&＃xff0c;也就是任务管理器&＃xff08;TaskManager&＃xff09;上的插槽&＃xff08;slot&＃xff09;&＃xff0c;一旦它获取到了足够的资源&＃xff0c;就会将执行图分发到真正运行它们的TaskManager上&＃xff0c;而在运行过程中&＃xff0c;JobManager会负责所有需要中央协调的操作&＃xff0c;比如说检查点&＃xff08;checkpoints&＃xff09;的协调。

5.2 任务管理器&＃xff08;TaskManager&＃xff09;

Flink中的工作进程&＃xff0c;通常在Flink中会有多个TaskManager运行&＃xff0c;每一个TaskManager都包含了一定数量的插槽&＃xff08;slots&＃xff09;。插槽的数量限制了TaskManager能够执行的任务数量。
启动之后&＃xff0c;TaskManager会向资源管理器注册它的插槽&＃xff1b;收到资源管理器的指令后&＃xff0c;TaskManager就会将一个或者多个插槽提供给JobManager调用。JobManager就可以向插槽分配任务&＃xff08;tasks&＃xff09;来执行了。
在执行过程中&＃xff0c;一个TaskManager可以跟其它运行同一应用程序的TaskManager交换数据。

5.3 资源管理器&＃xff08;ResourceManager&＃xff09;

主要负责管理任务管理器&＃xff08;TaskManager&＃xff09;的插槽&＃xff08;slot&＃xff09;&＃xff0c;TaskManger 插槽是Flink中定义的处理资源单元。
Flink为不同的环境和资源管理工具提供了不同资源管理器&＃xff0c;比如YARN、Mesos、K8s&＃xff0c;以及standalone部署。
当JobManager申请插槽资源时&＃xff0c;ResourceManager会将有空闲插槽的TaskManager分配给JobManager。如果ResourceManager没有足够的插槽来满足JobManager的请求&＃xff0c;它还可以向资源提供平台发起会话&＃xff0c;以提供启动TaskManager进程的容器。

5.4 分发器&＃xff08;Dispatcher&＃xff09;

可以跨作业运行&＃xff0c;它为应用提交提供了REST接口&＃xff1b;
当一个应用被提交执行时&＃xff0c;分发器就会启动并将应用移交给一个JobManager&＃xff1b;
Dispatcher也会启动一个Web UI&＃xff0c;用来方便地展示和监控作业执行的信息&＃xff1b;
Dispatcher在架构中可能并不是必需的&＃xff0c;这取决于应用提交运行的方式。

06 Flink执行图&＃xff08;ExecutionGraph&＃xff09;

由Flink程序直接映射成的数据流图是StreamGraph&＃xff0c;也被称为逻辑流图&＃xff0c;因为它们表示的是计算逻辑的高级视图&＃xff0c;为了执行一个流处理程序&＃xff0c;Flink需要将逻辑流图转换为物理数据流图&＃xff08;也叫执行图&＃xff09;&＃xff0c;详细说明程序的执行方式。

Flink 中的执行图可以分成四层&＃xff1a;StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图&＃xff1a;
在这里插入图片描述

6.1 原理

Flink执行executor会自动根据程序代码生成DAG数据流图&＃xff1b;

Flink 中的执行图可以分成四层&＃xff1a;StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图&＃xff1a;

StreamGraph &＃xff1a;是根据用户通过 Stream API编写的代码生成的最初的图&＃xff0c;表示程序的拓扑结构。
JobGraph &＃xff1a;StreamGraph经过优化后生成了JobGraph&＃xff0c;提交给JobManager的数据结构。主要的优化为&＃xff0c;将多个符合条件的节点 chain在一起作为一个节点&＃xff0c;这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。
ExecutionGraph &＃xff1a;JobManager根据 JobGraph生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本&＃xff0c;是调度层最核心的数据结构。
物理执行图 &＃xff1a;JobManager 根据 ExecutionGraph 对Job进行调度后&＃xff0c;在各个TaskManager 上部署 Task后形成的“图”&＃xff0c;并不是一个具体的数据结构。

可以简单理解为&＃xff1a;

StreamGraph&＃xff1a;最初的程序执行逻辑流程&＃xff0c;也就是算子之间的前后顺序–在Client上生成&＃xff1b;
JobGraph&＃xff1a;将OneToOne的Operator合并为OperatorChain–在Client上生成
ExecutionGraph&＃xff1a;将JobGraph根据代码中设置的并行度和请求的资源进行并行化规划!–在JobManager上生成
物理执行图&＃xff1a;将ExecutionGraph的并行计划,落实到具体的TaskManager上&＃xff0c;将具体的SubTask落实到具体的TaskSlot内进行运行。

推荐阅读

jar
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
spring
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
spring
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
version
使用Maven命令行工具将第三方JAR包部署至Nexus仓库服务器

在项目开发中，我们搭建了私有的Maven仓库服务器，以方便管理和下载所需的JAR包。然而，某些外部JAR包可能无法从公共Maven仓库获取，或者我们自行开发了一些仅供公司内部使用的插件，这些都需要上传到私有仓库中进行共享。本文详细介绍了如何使用Maven命令行工具将这些第三方JAR包部署至Nexus仓库服务器，确保团队成员能够轻松访问和使用这些资源。 ... [详细]

蜡笔小新 2024-11-11 15:53:32
version
在CentOS 6.6 64位系统上部署Tomcat 8服务器环境配置指南

本指南详细介绍了如何在CentOS 6.6 64位系统上以root用户身份部署Tomcat 8服务器。系统环境为CentOS 6.6 64位，采用源码安装方式。所需软件为apache-tomcat-8.0.23.tar.gz，建议将软件下载至/root/opt目录。具体下载地址请参见官方资源。本指南涵盖了从环境准备到服务启动的完整步骤，适用于需要在该系统环境下搭建高性能Web应用服务器的技术人员。 ... [详细]

蜡笔小新 2024-11-08 21:38:15
spring
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
md5
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
spring
Java Jigsaw：Java 9的重要特性与Java EE 8及微服务的最新进展

本文最初发表在Thorben Janssen的Java EE博客上，每周都会分享最新的Java新闻和动态。 ... [详细]

蜡笔小新 2024-11-12 18:57:13
spring
帝国CMS中的信息归档功能详解及其重要性

本文详细解析了帝国CMS中的信息归档功能，并探讨了其在内容管理中的重要性。通过归档功能，用户可以有效地管理和组织大量内容，提高网站的运行效率和用户体验。此外，文章还介绍了如何利用该功能进行数据备份和恢复，确保网站数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-09 20:42:14
spring
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
install
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
version
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
spring
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
version
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56
format
CSS3 @font-face 字体应用技术解析与实践

在Web前端开发中，HTML教程和CSS3的结合使得网页设计更加多样化。长期以来，Web设计师受限于“web-safe”字体的选择。然而，CSS3中的`@font-face`规则允许从服务器端加载自定义字体，极大地丰富了网页的视觉效果。通过这一技术，设计师可以自由选择和使用各种字体，提升用户体验和页面美观度。本文将深入解析`@font-face`的实现原理，并提供实际应用案例，帮助开发者更好地掌握这一强大工具。 ... [详细]

蜡笔小新 2024-11-07 19:12:26

mobiledu2502873797

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章