一文了解ApacheFlink的资源管理机制

作者：as123466_866 | 来源：互联网 | 2023-09-05 22:15

整理：王文杰（Flink社区志愿者）摘要：本文根据ApacheFlink系列直播整理而成，由阿里巴巴高级开发工

整理&＃xff1a;王文杰&＃xff08;Flink 社区志愿者&＃xff09;

摘要&＃xff1a;本文根据 Apache Flink 系列直播整理而成&＃xff0c;由阿里巴巴高级开发工程师宋辛童分享。文章主要从基本概念、当前机制与策略、未来发展方向等三个方面帮助开发者深入理解 Flink 的资源管理机制。

基本概念
当前机制与策略
未来发展方向

1. 基本概念

1.1 相关组件

我们今天介绍的主要是与 Flink 资源管理相关的组件&＃xff0c;我们知道一个 Flink Cluster 是由一个 Flink Master 和多个 Task Manager 组成的&＃xff0c;Flink Master 和 Task Manager 是进程级组件&＃xff0c;其他的组件都是进程内的组件。

图1. Flink 资源管理相关组件

如图1所示&＃xff0c;一个 Flink Master 中有一个 Resource Manager 和多个 Job Manager &＃xff0c;Flink Master 中每一个 Job Manager 单独管理一个具体的 Job &＃xff0c;Job Manager 中的 Scheduler 组件负责调度执行该 Job 的 DAG 中所有 Task &＃xff0c;发出资源请求&＃xff0c;即整个资源调度的起点&＃xff1b;JobManager 中的 Slot Pool 组件持有分配到该 Job 的所有资源。另外&＃xff0c;Flink Master 中唯一的 Resource Manager 负责整个 Flink Cluster 的资源调度以及与外部调度系统对接&＃xff0c;这里的外部调度系统指的是 Kubernetes、Mesos、Yarn 等资源管理系统。

Task Manager 负责 Task 的执行&＃xff0c;其中的 Slot 是 Task Manager 资源的一个子集&＃xff0c;也是 Flink 资源管理的基本单位&＃xff0c;Slot 的概念贯穿资源调度过程的始终。

1.2 逻辑层级

介绍完相关组件&＃xff0c;我们需要了解一下这些组件之间的逻辑关系&＃xff0c;共分如下为4层。

Operator

- 算子是最基本的数据处理单元

Task

- Flink Runtime 中真正去进行调度的最小单位
- 由一系列算子链式组合而成&＃xff08;chained operators&＃xff09;

&＃xff08;Note&＃xff1a;如果两个 Operator 属于同一个 Task&＃xff0c;那么不会出现一个 Operator 已经开始运行另一个 Operator 还没被调度的情况。&＃xff09;

- 对应一个 Job Graph

Flink Cluster

- 1 Flink Master &＃43; N Task Managers

图2. 组件的逻辑层级

资源调度的范畴&＃xff0c;实际上是图2红框内的内容。刚刚介绍的与资源调度相关的组件中&＃xff0c;JobManager、Secheduler 和 Slot Pool 对应于 Job 级别&＃xff0c;Resource Manager、Slot Manager 和 Task Manager 对应于 Flink Cluster 级别。

在 Operator 和 Task 中间的 Chaining 是指如何用 Operator 组成 Task 。在 Task 和 Job 之间的 Slot Sharing 是指多个 Task 如何共享一个 Slot 资源&＃xff0c;这种情况不会发生在跨作业的情况中。在 Flink Cluster 和 Job 之间的 Slot Allocation 是指 Flink Cluster 中的 Slot 是怎样分配给不同的 Job 。

1.3 两层资源调度模型

Flink 的资源调度是一个经典的两层模型&＃xff0c;其中从 Cluster 到 Job 的分配过程是由 Slot Manager 来完成&＃xff0c;Job 内部分配给 Task 资源的过程则是由 Scheduler 来完成。如图3&＃xff0c;Scheduler 向 Slot Pool 发出 Slot Request&＃xff08;资源请求&＃xff09;&＃xff0c;Slot Pool 如果不能满足该资源需求则会进一步请求 Resource Manager&＃xff0c;具体来满足该请求的组件是 Slot Manager。

图3. 两层资源调度模型

Task 对 Slot 进行复用有两种方式&＃xff1a;

Slot Caching

- 批作业
- 流作业的 Failover
- 多个 task 先后/轮流使用 slot 资源

Slot Sharing

- 多个 Task 在满足一定条件下可同时共享同一个 Slot 资源

2. 当前机制与策略

截至 Flink 1.10 版本&＃xff0c;Flink 当前的资源管理机制与策略是怎样的&＃xff1f;以下将详细说明。

2.1 Task Manager 有哪些资源&＃xff1f;

图4. Task Manager 资源组成

资源类型

- 内存
- CPU
- 其他扩展资源
- - GPU&＃xff08;FLIP-108&＃xff0c;在 Flink 1.11 版本完成&＃xff09;

TM 资源由配置决定

- Standalone 部署模式下&＃xff0c;TM 资源可能不同
- 其他部署模式下&＃xff0c;所有 TM 资源均相同

2.2 Slot 有哪些资源&＃xff1f;

图5. Slot资源组成

Task Manager 中有固定数量的 Slot &＃xff0c;Slot 的具体数量由配置决定。同一 Task Manager 上 Slot 之间没有差别&＃xff0c;每一个 Slot 都一样大&＃xff0c;即资源一样多。

2.3 Flink Cluster 有多少 Task Manager &＃xff1f;

Standalone 部署模式

在 Standalone 部署模式下&＃xff0c;Task Manager 的数量是固定的&＃xff0c;如果是 start-cluster.sh 脚本来启动集群&＃xff0c;可以通过修改以下文件中的配置来决定 TM 的数量&＃xff1b;也可以通过手动执行 taskmanager.sh 脚本来启动一个 TM 。

/conf/slaves

Active Resource Manager 部署模式

- Kubernetes&＃xff0c;Yarn&＃xff0c;Mesos
- 由 SlotManager / ResourceManager 按需动态决定
- - 当前 Slot 数量不能满足新的 Slot Request 时&＃xff0c;申请并启动新的 TaskManager
  - TaskManager 空闲一段时间后&＃xff0c;超时则释放

Note&＃xff1a;On-Yarn 部署模式不再支持指定固定数量的 TM &＃xff0c;即以下命令参数已经失效。

yarn-session.sh -n flink run -yn

2.4 Cluster -> Job 资源调度的过程

图6. Cluster 到 Job 的资源调度过程

如图6&＃xff0c;Cluster 到 Job 的资源调度过程中主要包含两个过程。

Slot Allocation&＃xff08;图6中红色箭头&＃xff09;

Scheduler 向 Slot Pool 发送请求&＃xff0c;如果 Slot 资源足够则直接分配&＃xff0c;如果 Slot 资源不够&＃xff0c;则由 Slot Pool 再向 Slot Manager发送请求&＃xff08;此时即为 Job 向 Cluster 请求资源&＃xff09;&＃xff0c;如果 Slot Manager 判断集群当中有足够的资源可以满足需求&＃xff0c;那么就会向 Task Manager 发送 Assign 指令&＃xff0c;Task Manager 就会提供 Slot 给 Slot Pool&＃xff0c;Slot Pool 再去满足 Scheduler 的资源请求。

Starting TaskManagers&＃xff08;图6中蓝色箭头&＃xff09;

在 Active Resource Manager 资源部署模式下&＃xff0c;当 Resource Manager 判定 Flink Cluster 中没有足够的资源去满足需求时&＃xff0c;它会进一步去底层的资源调度系统请求资源&＃xff0c;由调度系统把新的 Task Manager 启动起来&＃xff0c;并且 TaskManager 向 Resource Manager 注册&＃xff0c;则完成了新 Slot 的补充。

2.5 Job -> Task 资源调度的过程

Scheduler

- 根据 Execution Graph 和 Task 的执行状态&＃xff0c;决定接下来要调度的 Task
- 发起 SlotRequest
- 决定 Task / Slot 之间的分配

Slot Sharing

- Slot Sharing Group 中的任务可共用Slot
- - 默认所有节点在一个 Slot Sharing Group 中
  - 一个 Slot 中相同任务只能有一个
- 优点
- - 运行一个作业所需的 Slot 数量为最大并发数
  - 相对负载均衡

图7. Job 到 Task 资源调度过程

Slot Sharing 过程如图7所示&＃xff08;每一行分别是一个 task 的多个并发&＃xff0c;自下而上分别是 A、B、C&＃xff09;&＃xff0c;A、B、C 的并行度分别是4、4、3&＃xff0c;这些 Task 属于同一个 Slot Sharing Group 中&＃xff0c;所以不同的 Task 可以放在相同的 Slot 中运行&＃xff0c;如图7右侧所示&＃xff0c;有3个 Slot 放入了 ABC&＃xff0c;而第四个 Slot 放入了 AB 。通过以上过程我们可以很容易推算出这个 Job 需要的 Slot 数是4&＃xff0c;也是最大并发数。

2.6 资源调优

通过以上介绍的机制&＃xff0c;我们容易发现&＃xff0c;Flink 所采用的是自顶向下的资源管理&＃xff0c;我们所配置的是 Job 整体的资源&＃xff0c;而 Flink 通过 Slot Sharing 机制控制 Slot 的数量和负载均衡&＃xff0c;通过调整 Task Manager / Slot 的资源&＃xff0c;以适应一个 Slot Sharing Group 的资源需求。Flink 的资源管理配置简单&＃xff0c;易用性强&＃xff0c;适合拓扑结构简单或规模较小的作业。

3. 未来发展方向

3.1 细粒度资源管理

■ Slot Sharing 的局限性

图8. Slot Sharing的局限性

资源利用率非最优

通过 Slot Sharing 机制我们可以看到&＃xff0c;对资源的利用率不是最优的&＃xff0c;因为我们是按照最大并发数来配置 Slot 的资源&＃xff0c;这样就会造成如图8所示的部分资源被浪费。

不确定性

如图9所示&＃xff0c;A 的并发度是2&＃xff0c;BC 的并发度是1&＃xff0c;图9中的两种分配方式均满足 Slot Sharing 机制的要求&＃xff0c;这样就可能会出现如下情况&＃xff1a;我们在测试的时候出现的是上图右边这种 Slot 资源配置情况&＃xff0c;我们进行了调优配置好了 Slot 的大小&＃xff0c;但是我们真正提交作业到生产环境中确是上图左边的情况&＃xff0c;这样就会造成资源不够用&＃xff0c;进而导致作业无法执行。

■ 细粒度资源管理

基于以上 Slot Sharing 机制的局限性&＃xff0c;我们提出了细粒度资源管理的概念。

当算子的资源需求是已知的&＃xff0c;可以通过经验性的预估、半自动化或自动化的工具来衡量 Slot 的资源大小。
每一个 Task 独占一个 Slot 来进行资源调度。

3.2 动态 Slot 切分

图10. 静态 Slot 分配

如图10所示&＃xff0c;我们用圆圈的大小来表示该任务所需资源的多少&＃xff0c;如果不采用 Slot Sharing Group 机制&＃xff0c;现有的 Flink 资源管理机制要求 Slot 的大小必须一致&＃xff0c;所以我们可以得到右侧这样的 Slot 资源配置&＃xff0c;四个 Task Manager。

图11. 动态 Slot 切分

如果我们可以根据不同任务动态的决定每个 Slot 的大小&＃xff0c;我们就可以将 Task Manager 切分成如图11所示的情况&＃xff0c;仅需要三个 Task Manager。

动态 Slot 切分&＃xff08;FLIP-56&＃xff09;

图12. 静态 Slot 划分

如图12所示&＃xff0c;这是当前静态的固定大小的 Task Manager 的管理方式&＃xff0c;随着任务的执行&＃xff0c;Slot 只能简单的被占用或者被释放&＃xff0c;而不能进行更多额外调整。

图13. 动态 Slot 划分

如图13所示&＃xff0c;每一个 Task Manager 启动之后是一整块的资源&＃xff0c;每接收一个资源请求时&＃xff0c;都可以根据该请求动态的切分出一个 Slot 提供给它。但这也是有缺陷的&＃xff0c;因为不管我们怎样切分&＃xff0c;都经常会出现一小部分资源被浪费的情况&＃xff0c;这也是我们常说的资源碎片问题。

3.3 碎片化问题

针对上述提到的资源碎片问题&＃xff0c;我们提出了一个解决方案&＃xff0c;可以根据 Slot Request 资源需求定制 Task Manager 资源&＃xff0c;当前Flink 1.10 中每一个 Task Manager 都是一致的&＃xff0c;但是在细粒度的资源管理中&＃xff0c;已知资源需求时&＃xff0c;完全可以定制 Task Manager&＃xff0c;从理论上讲是完全可以彻底杜绝资源碎片问题。

这样做的代价是需要延长作业的调度时间&＃xff0c;要想定制 Task Manager 就必须要等收到 Slot Request 后才可以&＃xff0c;启动 Task Manager 的过程是比较耗时的。另一方面&＃xff0c;可能会导致 Task Manager 比较难复用&＃xff0c;很有可能需要释放掉旧的 Task Manager 而启动新的&＃xff0c;这也会耗费很多时间。

在不同的应用场景下也可使用不同的方案&＃xff1a;

Streaming&＃xff08;流处理&＃xff09;

- 一次调度&＃xff0c;长期运行
- 提高资源利用率的收益较高
- 适合采用定制 Task Manager 资源的调度策略

Batch&＃xff08;批处理&＃xff0c;尤其是短查询&＃xff09;

- 频繁调度&＃xff0c;Task 运行时间短
- 对调度延迟敏感
- 适合采用非定制的 Task Manager 资源的调度策略

3.4 易用性问题

与现有的资源调优相反&＃xff0c;细粒度资源管理下的资源调优是自底向上的资源管理&＃xff0c;我们不再是需要配置 Job 的整体资源&＃xff0c;而是需要用户去配置每个 Task 具体的资源需求&＃xff0c;我们需要把 Task 的资源配置尽可能的接近其实际的资源需求&＃xff0c;来提高资源利用率。但是同样带来的问题是&＃xff0c;配置难度高。所以更适用于拓扑复杂或规模较大的作业。

与当前的资源调优相比&＃xff0c;两种机制并不是孰优孰劣的关系&＃xff0c;而是可以针对不同的场景需求适配不同的调优策略&＃xff0c;在社区看来&＃xff0c;两种策略均有存在的价值。

3.5 资源调度策略插件化&＃xff08;FLINK-14106&＃xff09;

不管是当前静态的资源管理机制&＃xff0c;还是细粒度资源管理机制都要求调度策略针对不同的场景来进行不同的变化。目前 Flink 1.11 中调度策略插件化的开发工作已经完成。

资源调度策略

- Task Manager 的数量
- - 何时申请/释放 Task Manager
- Task Manager 的资源大小
- Slot Request 与 Task Manager 资源之间的适配

通过这三个资源调度策略&＃xff0c;我们可以得到如下优势&＃xff1a;

解决流处理和批处理的不同资源调度策略需求
满足用户对于细粒度、非细粒度资源管理的不同选择
未来更多资源调度策略带来的可能性

- 例如&＃xff1a;Spark 根据负载弹性伸缩集群的策略

随着 Flink 支持越来越多的应用场景&＃xff0c;灵活的资源调度策略对于保障高性能及资源效率至关重要&＃xff0c;我们欢迎更多 Flink 爱好者和开发者加入我们社区&＃xff0c;携手共进。

作者介绍&＃xff1a;

宋辛童&＃xff08;五藏&＃xff09;&＃xff0c;阿里巴巴高级开发工程师。2018 年博士毕业于北京大学网络与信息系统研究所&＃xff0c;后加入阿里巴巴实时计算团队&＃xff0c;主要负责 Apache Flink 及阿里巴巴企业版本 Blink 中资源调度与管理机制的研发工作。

推荐阅读

sum
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
main
Flutter 核心技术与混合开发模式深入解析

本文深入探讨了 Flutter 的核心技术，特别是其混合开发模式，包括统一管理模式和三端分离模式，以及混合栈原理。通过对比不同模式的优缺点，帮助开发者选择最适合项目的混合开发策略。 ... [详细]

蜡笔小新 2024-11-19 13:48:51
main
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
spring
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
python
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
sum
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
sum
小米AX6000路由器深度解析

小米路由器AX6000与小米11同步推出，不仅在硬件配置上达到了旗舰级水准，其独特的4K QAM技术更是引领了行业新标准。本文将深入探讨这款路由器的性能表现及其实际应用。 ... [详细]

蜡笔小新 2024-11-19 18:27:39
sum
UE4 中的距离场技术详解

本文将深入探讨 Unreal Engine 4 (UE4) 中的距离场技术，包括其原理、实现细节以及在渲染中的应用。距离场技术在现代游戏引擎中用于提高光照和阴影的效果，尤其是在处理复杂几何形状时。文章将结合具体代码示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-19 18:21:03
sum
提升Android应用性能：利用Kotlin协程

协程作为一种并发设计模式，能有效简化Android平台上的异步代码处理。自Kotlin 1.3版本引入协程以来，这一特性基于其他语言的成熟理念，为开发者提供了新的工具，以增强应用的响应性和效率。 ... [详细]

蜡笔小新 2024-11-19 10:13:02
hash
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11
jar
mybatis 详解（七）一对一、一对多、多对多

mybatis详解（七）------一 ... [详细]

蜡笔小新 2024-11-17 10:03:06
bit
2023年最新指南：如何在PHP中屏蔽警告和错误

本文详细介绍了如何在PHP中屏蔽警告和错误，包括多种方法和最佳实践，帮助开发者提升代码质量和安全性。 ... [详细]

蜡笔小新 2024-11-16 02:00:40
bit
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
jar
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
python
工作原理_一文理解 Spark 基础概念及工作原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了一文理解Spark基础概念及工作原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 04:29:30

as123466_866

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章