大数据学习（31）——flink流处理

作者：歪友46300606 | 来源：互联网 | 2023-07-24 19:49

这一篇很难懂，我也不懂。有状态流处理虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但有些操作会记住多个事件的信息（例如窗口操作符）。这些操作称为有状态的。有状态

这一篇很难懂，我也不懂。

有状态流处理
虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但有些操作会记住多个事件的信息（例如窗口操作符）。这些操作称为有状态的。
有状态操作的一些示例：

当应用程序搜索某些事件模式时，状态将存储到目前为止遇到的事件序列。

当聚合每分钟/小时/天的事件时，状态持有待处理的聚合。

在数据点流上训练机器学习模型时，状态保存模型参数的当前版本。

当需要管理历史数据时，状态允许有效访问过去发生的事件。

键控状态

键控状态保持在可以被认为是嵌入式键/值存储的东西中。状态与有状态操作符读取的流一起被严格地划分和分布。因此，只能在键控流上访问键/值状态，即在键控/分区数据交换之后，并且仅限于与当前事件的键相关联的值。对齐流和状态的键可确保所有状态更新都是本地操作，保证一致性而没有事务开销。这种对齐还允许Flink重新分配状态并透明地调整流分区。我想说，这个介绍就不能通俗一点，这说的啥玩意儿。

Keyed State 被进一步组织成所谓的Key Groups。Key Groups 是 Flink 可以重新分配 Keyed State 的原子单元；有与定义的最大并行度一样多的密钥组。在执行期间，键控运算符的每个并行实例都使用一个或多个键组的键。

状态持久化

Flink 使用流重放和检查点的组合来实现容错，通俗地说，就是快照和redo日志。检查点标记每个输入流中的特定点以及每个操作符的相应状态。数据流可以从检查点恢复，同时通过恢复操作符的状态，从检查点重放记录来保持一致性（恰好一次处理语义）。

检查点间隔是一种权衡执行期间容错开销与恢复时间（需要重放的记录数）的方法。

容错机制不断地绘制分布式流数据流的快照。对于小状态的流式应用，这些快照是非常轻量级的，可以频繁绘制，对性能没有太大影响。流应用程序的状态存储在可配置的位置，通常在分布式文件系统中。

如果程序出现故障（由于机器、网络或软件故障），Flink 会停止分布式数据流。然后系统重新启动操作并将它们重置为最新的成功检查点。输入流被重置到状态快照的点。

检查点

Flink 容错机制的核心部分是绘制分布式数据流和算子状态的一致快照。这些快照充当一致的检查点，系统可以在出现故障时回退到这些检查点。

请记住，与检查点有关的一切都可以异步完成。检查点屏障不会在锁定步骤中移动，操作可以异步快照它们的状态。

屏障

Flink 分布式快照的一个核心元素是流屏障。这些屏障被注入到数据流中，并作为数据流的一部分与记录一起流动。屏障永远不会超过记录，它们严格按照顺序流动。屏障将数据流中的记录分为进入当前快照的记录集和进入下一个快照的记录。每个屏障都带有它推送到它前面的记录的快照的 ID。屏障不会中断数据流的流动，因此非常轻便。来自不同快照的多个屏障可以同时在流中，这意味着各种快照可能同时发生。

流屏障被注入到源的并行数据流中。快照n的屏障被注入的点（我们称之为 S_n）是源中快照覆盖数据的位置。例如，在 Apache Kafka 中，此位置将是分区中最后一条记录的偏移量。这个位置S_n 报告给检查点协调器（Flink 的 JobManager）。

然后屏障向下游流动。当中间操作符从其所有输入流中接收到快照n的屏障时，它会将快照n的屏障发送到其所有输出流中。一旦接收器操作符（流 DAG 的末尾）从其所有输入流中接收到屏障n，它就会向检查点协调器确认快照n。在所有接收器确认快照后，它被认为已完成。

一旦快照n完成，作业将永远不会再向源询问S_n之前的记录。

接收多个输入流的操作符需要在快照屏障上对齐输入流。上图说明了这一点：

一旦接收到快照屏障n，它就无法处理该流中的任何进一步记录，直到它也从其他输入接收到屏障n。否则，它会将属于快照n 的记录与属于快照n+1 的记录混合在一起。

一旦最后一个流接收到屏障n，操作员就会发出所有待处理的传出记录，然后自己发出快照n屏障。

它对状态进行快照并恢复处理来自所有输入流的记录，在处理来自流的记录之前处理来自输入缓冲区的记录。

最后将状态异步写入状态后端。

请注意，所有具有多个输入的操作符以及在使用多个上游子任务的输出流时经过 shuffle 后的操作符都需要对齐。

快照状态

当操作符包含任何形式的state 时，这个 state 也必须是快照的一部分。

在收到来自输入流的所有快照屏障时，以及在将屏障发送到其输出流之前的时间点对他们的状态进行快照。那时，所有从障碍之前记录的状态更新都已经完成，并且没有依赖于应用障碍之后的记录的更新。因为快照的状态可能很大，所以它存储在一个可配置的状态后端中。默认情况下，这是 JobManager 的内存，但对于生产用途，应配置分布式可靠存储（例如 HDFS）。存储状态后，操作员确认检查点，将快照屏障发送到输出流中，然后继续。

生成的快照现在包含：

对于每个并行流数据源，快照开始时在流中的偏移/位置

对于每个运算符，指向作为快照一部分存储的状态的指针

恢复

这种机制下的恢复很简单：发生故障时，Flink 选择最新完成的检查点k。然后系统重新部署整个分布式数据流，并为每个操作提供作为检查点k一部分的快照状态。源被设置为从位置S_k开始读取流。例如在 Apache Kafka 中，这意味着告诉消费者从偏移量S_k开始获取。

如果状态是增量快照，则从最新完整快照的状态开始，然后将一系列增量快照更新应用于该状态。

未对齐的检查点

检查点也可以不对齐地执行。基本思想是，只要动态数据成为操作状态的一部分，检查点就可以超越所有动态数据。

该图描绘了操作如何处理未对齐的检查点屏障：

运算符对存储在其输入缓冲区中的第一个屏障做出反应。

它通过将屏障添加到输出缓冲区的末尾来立即将屏障转发给下游运算符。

操作将所有被超越的记录标记为异步存储并创建其自身状态的快照。

因此，操作只是简单地停止处理输入以标记缓冲区，转发屏障，并创建另一个状态的快照。

状态后端

存储键/值索引的数据结构取决于所选的状态后端。一个状态后端将数据存储在内存中的哈希映射中，另一个状态后端使用RocksDB作为键/值存储。除了定义保存状态的数据结构之外，状态后端还实现了获取键/值状态的时间点快照并将该快照作为检查点的一部分存储。可以在不更改应用程序逻辑的情况下配置状态后端。

保存点

所有使用检查点的程序都可以从保存点恢复执行。保存点是手动触发的检查点，它获取程序的快照并将其写出到状态后端，它们依赖于常规的检查点机制。

保存点类似于检查点，不同之处在于它们由用户触发并且不会在新的检查点完成时自动过期。

恰好一次 vs 至少一次

对齐步骤可能会给流媒体程序增加延迟。通常，这种额外的延迟大约是几毫秒，但我们已经看到一些显著增加的异常延迟情况。对于要求所有记录始终保持超低延迟（几毫秒）的应用程序，Flink 有一个开关可以在检查点期间跳过流对齐。一旦操作从每个输入中看到检查点屏障，检查点快照仍然会被保存。

当跳过对齐时，操作继续处理所有输入，即使在检查点n 的一些检查点屏障到达之后也是如此。在还原时，将在检查点n之后作为数据的一部分重放。

及时流处理

官网把Timely stream翻译成及时流，感觉怪怪的。

及时流处理是有状态流处理的扩展，其中时间在计算中起一定作用。除其他外，当您进行时间序列分析、基于特定时间段（通常称为窗口）进行聚合时，或者当您进行事件发生时间很重要的事件处理时，就会出现这种情况。

在下面的部分中，我们将重点介绍在使用及时的 Flink 应用程序时应该考虑的一些主题。

事件时间和处理时间

在流媒体程序中提及时间时（例如定义窗口），可以指代不同的时间概念：

处理时间：处理时间是指正在执行相应操作的机器的系统时间。
当流程序按处理时间运行时，所有基于时间的操作（如时间窗口）将使用运行相应算子的机器的系统时钟。每小时处理时间窗口将包括在系统时钟指示整小时之间到达特定操作员的所有记录。例如，如果应用程序在上午 9:15 开始运行，则第一个每小时处理时间窗口将包括上午 9:15 至上午 10:00 之间处理的事件，下一个窗口将包括上午 10:00 至上午 11:00 之间处理的事件，依此类推在。
处理时间是最简单的时间概念，不需要流和机器之间的协调。它提供最佳性能和最低延迟。然而，在分布式和异步环境中，处理时间不提供确定性，因为它容易受到记录到达系统（例如来自消息队列）的速度，以及记录在系统内部操作之间流动的速度的影响，以及中断影响。

事件时间：事件时间是每个单独事件在其产生设备上发生的时间。这个时间通常在记录进入 Flink 之前嵌入在记录中，并且可以从每条记录中提取该事件时间戳。在事件时间中，时间的进度取决于数据，而不是任何挂钟。事件时间程序必须指定如何生成事件时间水印，这是一种表示事件时间进度的机制。
在完美的世界中，事件时间处理将产生完全一致和确定性的结果，无论事件何时到达，或它们的顺序如何。但是，除非已知事件按顺序到达（按时间戳），否则事件时间处理在等待乱序事件时会产生一些延迟。由于只能等待有限的时间段，因此这限制了确定性事件时间应用程序的能力。
假设所有数据都已到达，事件时间操作将按预期运行，即使在处理乱序或延迟事件，或重新处理历史数据时，也会产生正确且一致的结果。例如，每小时事件时间窗口将包含所有带有属于该小时的事件时间戳的记录，无论它们到达的顺序或处理时间如何。
有时当事件时间程序实时处理实时数据时，它们会使用一些处理时间操作以保证它们及时进行。

事件时间和处理时间

水印对于乱序流至关重要，如下图所示，其中事件不是按时间戳排序的。一般来说，水印是一种声明，即到流中的那个点，直到某个时间戳的所有事件都应该已经到达。一旦水印到达，操作就可以将其内部事件时钟提前到水印的值。

迟到

某些元素可能会违反水印条件，这意味着即使在Watermark(t)发生之后，也会出现更多时间戳为t' <= t 的元素。事实上，在许多现实世界的设置中，某些元素可以任意延迟，因此无法指定某个事件时间戳的所有元素将发生的时间。此外，即使可以限制延迟，将水印延迟太多通常也是不可取的。

出于这个原因，流媒体程序可能会明确地期待一些后期元素。迟到的元素是在系统的事件时间时钟（由水印发出信号）已经超过迟到元素的时间戳时间之后到达的元素。

开窗

聚合事件（例如，计数、总和）在流上的工作方式与在批处理中的工作方式不同。例如，不可能对流中的所有元素进行计数，因为流通常是无限的（无界）。相反，流上的聚合（计数、总和等）由窗口限定范围，例如 “过去 5 分钟内的计数”或“最后 100 个元素的总和”。

窗口可以是时间驱动的（例如：每 30 秒）或数据驱动的（例如：每 100 个元素）。通常区分不同类型的窗口，例如滚动窗口（无重叠）、滑动窗口（有重叠）和会话窗口（由不活动的间隙打断）。

推荐阅读

stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
stream
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
filter
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
controller
利用StructureMap在ASP.NET MVC三层架构中实现依赖注入的扩展方法与实践

本文将介绍一种扩展的ASP.NET MVC三层架构框架，并通过使用StructureMap实现依赖注入，以降低代码间的耦合度。该方法不仅能够提高代码的可维护性和可测试性，还能增强系统的灵活性和扩展性。通过具体实践案例，详细阐述了如何在实际开发中有效应用这一技术。 ... [详细]

蜡笔小新 2024-10-29 18:20:29
controller
B站服务器故障影响豆瓣评分？别担心，阿里巴巴架构师分享预防策略与技术方案

13日晚上，在视频观看高峰时段，B站出现了服务器故障，引发网友在各大平台上的广泛吐槽。这一事件导致了连锁反应，大量用户纷纷涌入A站、豆瓣和晋江等平台，给这些网站带来了突如其来的流量压力。为了防止类似问题的发生，阿里巴巴架构师分享了一系列预防策略和技术方案，包括负载均衡、弹性伸缩和容灾备份等措施，以确保系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-10 15:59:22
controller
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
controller
从小微企业到大型企业：Java架构师实战训练营首周体验

在当今的软件开发领域，分布式技术已成为程序员不可或缺的核心技能之一，尤其在面试中更是考察的重点。无论是小微企业还是大型企业，掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中，我们深入探讨了Kafka这一高效的分布式消息系统，它不仅支持发布订阅模式，还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练，学员们对Kafka的应用有了更加深刻的理解。 ... [详细]

蜡笔小新 2024-11-09 11:21:43
fetch
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56
scala
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
scala
深入解析 PHP 容器概念：理解依赖注入容器的基础与应用（第一篇）

本文作为探讨PHP依赖注入容器系列文章的开篇，将首先通过具体示例详细阐述依赖注入的基本概念及其重要性，为后续深入解析容器的实现奠定基础。 ... [详细]

蜡笔小新 2024-11-04 20:11:40
scala
掌握PHP框架开发与应用的核心知识点：构建高效PHP框架所需的技术与能力综述

掌握PHP框架开发与应用的核心知识点对于构建高效PHP框架至关重要。本文综述了开发PHP框架所需的关键技术和能力，包括但不限于对PHP语言的深入理解、设计模式的应用、数据库操作、安全性措施以及性能优化等方面。对于初学者而言，熟悉主流框架如Laravel、Symfony等的实际应用场景，有助于更好地理解和掌握自定义框架开发的精髓。 ... [详细]

蜡笔小新 2024-10-31 14:51:01
scala
修复一个 Bug 竟耗时两天？真的有那么复杂吗？

修复一个 Bug 竟然耗费了两天时间？这背后究竟隐藏着怎样的复杂性？本文将深入探讨这个看似简单的 Bug 为何会如此棘手，从代码层面剖析问题根源，并分享解决过程中遇到的技术挑战和心得。 ... [详细]

蜡笔小新 2024-10-30 13:58:14
heap
深入解析队列机制及其广泛的应用场景

本文深入探讨了队列机制的核心原理及其在多种应用场景中的广泛应用。首先，文章详细解析了队列的基本概念、操作方法及其时间复杂度。接着，通过具体实例，阐述了队列在操作系统任务调度、网络通信、事件处理等领域的实际应用。此外，文章还对比了队列与其他常见数据结构（如栈、数组和链表）的优缺点，帮助读者更好地理解和选择合适的数据结构。最后，通过具体的编程示例，进一步巩固了对队列机制的理解和应用。 ... [详细]

蜡笔小新 2024-10-27 10:54:52

歪友46300606

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章