ApacheFlink进阶（三）：Checkpoint原理剖析与应用实践

作者：laomeng爱家人_465 | 来源：互联网 | 2023-07-20 16:07

本文根据ApacheFlink进阶篇系列直播课程整理而成，由阿里巴巴高级研发工程师唐云（茶干）分享，主要讲解Flink中Ch

本文根据 Apache Flink 进阶篇系列直播课程整理而成&＃xff0c;由阿里巴巴高级研发工程师唐云&＃xff08;茶干&＃xff09;分享&＃xff0c;主要讲解 Flink 中 Checkpoint 的应用实践&＃xff0c;包括四个部分&＃xff0c;分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制。

Tips&＃xff1a;文末可回顾全部基础篇及进阶篇系列教程。

Checkpoint 与 state 的关系

Checkpoint 是从 source 触发到下游所有节点完成的一次全局操作。下图可以有一个对 Checkpoint 的直观感受&＃xff0c;红框里面可以看到一共触发了 569K 次 Checkpoint&＃xff0c;然后全部都成功完成&＃xff0c;没有 fail 的。

640?wx_fmt&＃61;png

state 其实就是 Checkpoint 所做的主要持久化备份的主要数据&＃xff0c;看下图的具体数据统计&＃xff0c;其 state 也就 9kb 大小。

640?wx_fmt&＃61;png

什么是 state

我们接下来看什么是 state。先看一个非常经典的 word count 代码&＃xff0c;这段代码会去监控本地的 9000 端口的数据并对网络端口输入进行词频统计&＃xff0c;我们本地行动 netcat&＃xff0c;然后在终端输入 hello world&＃xff0c;执行程序会输出什么&＃xff1f;

640?wx_fmt&＃61;png

答案很明显&＃xff0c;(hello, 1) 和 (word,1)。

那么问题来了&＃xff0c;如果再次在终端输入 hello world&＃xff0c;程序会输入什么&＃xff1f;

答案其实也很明显&＃xff0c;(hello, 2) 和 (world, 2)。为什么 Flink 知道之前已经处理过一次 hello world&＃xff0c;这就是 state 发挥作用了&＃xff0c;这里是被称为 keyed state 存储了之前需要统计的数据&＃xff0c;所以帮助 Flink 知道 hello 和 world 分别出现过一次。

回顾一下刚才这段 word count 代码。keyby 接口的调用会创建 keyed stream 对 key 进行划分&＃xff0c;这是使用 keyed state 的前提。在此之后&＃xff0c;sum 方法会调用内置的 StreamGroupedReduce 实现。

640?wx_fmt&＃61;png

什么是 keyed state

对于 keyed state&＃xff0c;有两个特点&＃xff1a;

只能应用于 KeyedStream 的函数与操作中&＃xff0c;例如 Keyed UDF, window state
keyed state 是已经分区 / 划分好的&＃xff0c;每一个 key 只能属于某一个 keyed state

对于如何理解已经分区的概念&＃xff0c;我们需要看一下 keyby 的语义&＃xff0c;大家可以看到下图左边有三个并发&＃xff0c;右边也是三个并发&＃xff0c;左边的词进来之后&＃xff0c;通过 keyby 会进行相应的分发。例如对于 hello word&＃xff0c;hello 这个词通过 hash 运算永远只会到右下方并发的 task 上面去。

640?wx_fmt&＃61;png

什么是 operator state

又称为 non-keyed state&＃xff0c;每一个 operator state 都仅与一个 operator 的实例绑定
常见的 operator state 是 source state&＃xff0c;例如记录当前 source 的 offset

再看一段使用 operator state 的 word count 代码&＃xff1a;

640?wx_fmt&＃61;png

这里的 fromElements 会调用 FromElementsFunction 的类&＃xff0c;其中就使用了类型为 list state 的 operator state。根据 state 类型做一个分类如下图&＃xff1a;

640?wx_fmt&＃61;png

除了从这种分类的角度&＃xff0c;还有一种分类的角度是从 Flink 是否直接接管&＃xff1a;

Managed State&＃xff1a;由 Flink 管理的 state&＃xff0c;刚才举例的所有 state 均是 managed state
Raw State&＃xff1a;Flink 仅提供 stream 可以进行存储数据&＃xff0c;对 Flink 而言 raw state 只是一些 bytes

在实际生产中&＃xff0c;都只推荐使用 managed state&＃xff0c;本文将围绕该话题进行讨论。

如何在 Flink 中使用 state

下图就前文 word count 的 sum 所使用的 StreamGroupedReduce 类为例讲解了如何在代码中使用 keyed state&＃xff1a;

640?wx_fmt&＃61;png

下图则对 word count 示例中的 FromElementsFunction 类进行详解并分享如何在代码中使用 operator state&＃xff1a;

640?wx_fmt&＃61;png

Checkpoint 的执行机制

在介绍 Checkpoint 的执行机制前&＃xff0c;我们需要了解一下 state 的存储&＃xff0c;因为 state 是 Checkpoint 进行持久化备份的主要角色。

Statebackend 的分类

下图阐释了目前 Flink 内置的三类 state backend&＃xff0c;其中 MemoryStateBackend 和 FsStateBackend 在运行时都是存储在 java heap 中的&＃xff0c;只有在执行 Checkpoint 时&＃xff0c;FsStateBackend 才会将数据以文件格式持久化到远程存储上。而 RocksDBStateBackend 则借用了 RocksDB&＃xff08;内存磁盘混合的 LSM DB&＃xff09;对 state 进行存储。

640?wx_fmt&＃61;png

对于 HeapKeyedStateBackend&＃xff0c;有两种实现&＃xff1a;

支持异步 Checkpoint&＃xff08;默认&＃xff09;&＃xff1a;存储格式 CopyOnWriteStateMap
仅支持同步 Checkpoint&＃xff1a;存储格式 NestedStateMap

特别在 MemoryStateBackend 内使用 HeapKeyedStateBackend 时&＃xff0c;Checkpoint 序列化数据阶段默认有最大 5 MB 数据的限制。

对于 RocksDBKeyedStateBackend&＃xff0c;每个 state 都存储在一个单独的 column family 内&＃xff0c;其中 keyGroup&＃xff0c;Key 和 Namespace 进行序列化存储在 DB 作为 key。

640?wx_fmt&＃61;png

Checkpoint 执行机制详解

本小节将对 Checkpoint 的执行流程逐步拆解进行讲解&＃xff0c;下图左侧是 Checkpoint Coordinator&＃xff0c;是整个 Checkpoint 的发起者&＃xff0c;中间是由两个 source&＃xff0c;一个 sink 组成的 Flink 作业&＃xff0c;最右侧的是持久化存储&＃xff0c;在大部分用户场景中对应 HDFS。

a. 第一步&＃xff0c;Checkpoint Coordinator 向所有 source 节点 trigger Checkpoint。

640?wx_fmt&＃61;png

b. 第二步&＃xff0c;source 节点向下游广播 barrier&＃xff0c;这个 barrier 就是实现 Chandy-Lamport 分布式快照算法的核心&＃xff0c;下游的 task 只有收到所有 input 的 barrier 才会执行相应的 Checkpoint。

640?wx_fmt&＃61;png

c. 第三步&＃xff0c;当 task 完成 state 备份后&＃xff0c;会将备份数据的地址&＃xff08;state handle&＃xff09;通知给 Checkpoint coordinator。

640?wx_fmt&＃61;png

d. 第四步&＃xff0c;下游的 sink 节点收集齐上游两个 input 的 barrier 之后&＃xff0c;会执行本地快照&＃xff0c;这里特地展示了 RocksDB incremental Checkpoint 的流程&＃xff0c;首先 RocksDB 会全量刷数据到磁盘上&＃xff08;红色大三角表示&＃xff09;&＃xff0c;然后 Flink 框架会从中选择没有上传的文件进行持久化备份&＃xff08;紫色小三角&＃xff09;。

640?wx_fmt&＃61;png

e. 同样的&＃xff0c;sink 节点在完成自己的 Checkpoint 之后&＃xff0c;会将 state handle 返回通知 Coordinator。

640?wx_fmt&＃61;png

f. 最后&＃xff0c;当 Checkpoint coordinator 收集齐所有 task 的 state handle&＃xff0c;就认为这一次的 Checkpoint 全局完成了&＃xff0c;向持久化存储中再备份一个 Checkpoint meta 文件。

640?wx_fmt&＃61;png

Checkpoint 的 EXACTLY_ONCE 语义

为了实现 EXACTLY ONCE 语义&＃xff0c;Flink 通过一个 input buffer 将在对齐阶段收到的数据缓存起来&＃xff0c;等对齐完成之后再进行处理。而对于 AT LEAST ONCE 语义&＃xff0c;无需缓存收集到的数据&＃xff0c;会对后续直接处理&＃xff0c;所以导致 restore 时&＃xff0c;数据可能会被多次处理。下图是官网文档里面就 Checkpoint align 的示意图&＃xff1a;

640?wx_fmt&＃61;png

需要特别注意的是&＃xff0c;Flink 的 Checkpoint 机制只能保证 Flink 的计算过程可以做到 EXACTLY ONCE&＃xff0c;端到端的 EXACTLY ONCE 需要 source 和 sink 支持。

Savepoint 与 Checkpoint 的区别

作业恢复时&＃xff0c;二者均可以使用&＃xff0c;主要区别如下&＃xff1a;

640?wx_fmt&＃61;png

更多 Apache Flink 基础篇及进阶篇完整教程回顾&＃xff1a;

Apache Flink 系列入门教程

▼ 进阶篇

▼ 基础篇

▼ Flink 社区推荐 ▼

Apache Flink 及大数据领域盛会 Flink Forward Asia 2019 将于 11月28-30日在北京国家会议中心举办&＃xff0c;大会议程已上线&＃xff0c;点击「阅读原文」可了解大会议程详情。

▼

&＃xff08;点击图片可查看 Flink Forward Asia 2019 详情&＃xff09;

你也「在看」吗&＃xff1f;

推荐阅读

default
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
tree
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
less
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
buffer
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
default
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
char
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
python
Python 伦理黑客技术：深入探讨后门攻击（第三部分）

在《Python 伦理黑客技术：深入探讨后门攻击（第三部分）》中，作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流，难以确定消息批次的结束点，这给后门攻击的实现带来了挑战。为了解决这一问题，文章提出了一系列有效的技术方案，包括使用特定的分隔符和长度前缀，以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性，还为安全研究人员提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 16:33:02
version
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
default
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
buffer
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
char
C++ 从文件中逐行读取结构体数据，并将其存储到向量中，最终输出至控制台和新文件

在C++程序中，文档A的每一行包含一个结构体数据，其中某些字段可能包含不同数量的数字。需要将这些结构体数据逐行读取并存储到向量中，随后不仅在控制台上显示，还要输出到新创建的文档B中。希望得到指导，感谢！ ... [详细]

蜡笔小新 2024-11-09 18:40:33
version
求助：如何使用Pull方法解析标签内容，悬赏50分求完美解决方案

在处理 XML 数据时，如果需要解析 `` 标签的内容，可以采用 Pull 解析方法。Pull 解析是一种高效的 XML 解析方式，适用于流式数据处理。具体实现中，可以通过 Java 的 `XmlPullParser` 或其他类似的库来逐步读取和解析 XML 文档中的 `` 元素。这样不仅能够提高解析效率，还能减少内存占用。本文将详细介绍如何使用 Pull 解析方法来提取 `` 标签的内容，并提供一个示例代码，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-11-09 11:50:14
buffer
如何在Java中获取当前操作系统的进程列表及其详细信息

本文探讨了如何利用Java代码获取当前本地操作系统中正在运行的进程列表及其详细信息。通过引入必要的包和类，开发者可以轻松地实现这一功能，为系统监控和管理提供有力支持。示例代码展示了具体实现方法，适用于需要了解系统进程状态的开发人员。 ... [详细]

蜡笔小新 2024-11-09 10:45:26
default
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
default
暑假强化训练：计算几何深度探索

经过两天的努力，终于成功解决了半平面交模板题POJ3335的问题。原来是在`OnLeft`函数中漏掉了关键的等于号。通过这次训练，不仅加深了对半平面交算法的理解，还提升了调试和代码实现的能力。未来将继续深入研究计算几何的其他核心问题，进一步巩固和拓展相关知识。 ... [详细]

蜡笔小新 2024-11-08 16:20:55

laomeng爱家人_465

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章