Flink原理与实现：数据交换策略

作者：fhuwiop | 来源：互联网 | 2023-08-08 09:19

数据交换策略数据交换策略（DataExchangeStrategy）定义了数据如何被分配到物理数据流图的Task中的。数据交换策略可以由执行引擎根据算

数据交换策略

数据交换策略&＃xff08;Data Exchange Strategy&＃xff09;定义了数据如何被分配到物理数据流图的 Task 中的。数据交换策略可以由执行引擎根据算子的语义自动选择&＃xff0c;也可以由数据流程序显式施加。因此&＃xff0c;我们简要回顾下常见的几种数据交换策略&＃xff1a;

Forward&＃xff1a;该策略把数据从一个 Task 发送到另一个接收 Task。如果这两个 Task 位于同一台物理机上&＃xff08;通常用任务调度器保证&＃xff09;&＃xff0c;则该策略可以避免网络通信。
Broadcast&＃xff1a;该策略把数据发送到算子所有并行的 Task 上。因为该策略需要复制数据&＃xff0c;并涉及网络通信&＃xff0c;所以成本比较高。
Key-Based&＃xff1a;该策略把数据按照 Key 进行分区&＃xff0c;并且保证具有相同 Key 的数据会被划分到相同的 Task 上。
Random&＃xff1a;该策略将数据项均匀地分配到 Task 中&＃xff0c;以使负载均匀地分布在计算任务之间。

分区转换

分区转换对应于数据交换策略。该操作定义了事件如何被分配到 Task。当使用 DataStream API 构建应用程序时&＃xff0c;系统自动地选择数据分区策略&＃xff0c;并依据操作语义和配置的并发度将数据路由到正确的 Task。有时有必要在应用程序层面控制分区策略&＃xff0c;或者自定义分区器。例如&＃xff0c;如果我们已经知道 DataStream 的并行分区的负载是倾斜的&＃xff0c;我们可能希望重新平衡数据&＃xff0c;以便均匀地分配后续操作符的计算负载。或者&＃xff0c;应用程序逻辑要求执行的所有 Task 都接收相同的数据&＃xff0c;又或者要求事件按照自定义的策略分布。在本节中&＃xff0c;我们将展示用户可以操作的 DataStream 方法或者定义他们自己的方法。

注意&＃xff1a;KeyBy() 和本节讨论的分区转换是不同的。本节讨论的转换都会产生一个 DataStream&＃xff0c;而 KeyBy() 产生的是 KeyedStream&＃xff0c;并可以在它上应用访问 Keyed-state 的转换。

Random

Random 数据交换策略通过 DataStream.shuffle() 实现。该方法按照均匀分配的原则&＃xff0c;随机地将数据分配到下游算子的并行 Task 中。

Round-Robin

rebalance() 方法对输入流进行分区&＃xff0c;以便以 Round-Robin 方式将事件均匀地分配到下下游 Task。

Rescale

rescale() 也以 Round-Robin 的方式分配数据&＃xff0c;但是它只分配给下游 Task 的子集。本质上&＃xff0c;当发送者和接收者的 Task 数量不同时&＃xff0c;Rescale 策略提供了一种执行轻量级负载重新均衡的方式。如果接收者的 Task 数量是发送者的 Task 数量的倍数&＃xff0c;则 Rescale 转换会更有效&＃xff0c;反之亦然。

rebalance() 和 rescale() 本质的不同在于 Task 的连接方式上。rebalance() 在所有发送 Task 和接收 Task 间创建通信通道&＃xff0c;而 rescale() 仅仅创建从每个 Task 到下游算子的某些 Task 通信通道。
图2 Rebalance vs Rescale

Broadcast

broadcast() 复制输入数据流&＃xff0c;为了将所有数据发送到下游算子的所有并行的 Task 上。

Global

globa() 发送所有输入数据流到下游算子的第一个并行 Task。该分区策略必须谨慎使用&＃xff0c;因为将所有数据路由到同一个 Task 可能会影响应用程序性能。

Custom

当预定义的分区策略没有一个适合使用时&＃xff0c;你可以使用 partitionCustom() 定义自己的策略。该方法接收一个 Partitioner 对象&＃xff0c;该对象实现分区逻辑和在被分区流上的字段或键的位置。

推荐阅读

ip
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
main
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
main
深入解析Java 8并发编程：AtomicInteger源码详解与应用分析

本文深入解析了Java 8并发编程中的`AtomicInteger`类，详细探讨了其源码实现和应用场景。`AtomicInteger`通过硬件级别的原子操作，确保了整型变量在多线程环境下的安全性和高效性，避免了传统加锁方式带来的性能开销。文章不仅剖析了`AtomicInteger`的内部机制，还结合实际案例展示了其在并发编程中的优势和使用技巧。 ... [详细]

蜡笔小新 2024-11-06 19:11:47
main
Spring框架的核心组件与架构解析

Spring框架的核心组件与架构解析 ... [详细]

蜡笔小新 2024-11-06 14:16:03
ip
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
ip
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
request
使用OpenSSL自建CA证书（实测有效）

本文详细介绍了如何使用OpenSSL自建CA证书的步骤，包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]

蜡笔小新 2024-11-13 09:55:03
ip
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
ip
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
config
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
config
Java 8编程的四大高级技巧解析与应用

在多年使用Java 8进行新应用开发和现有应用迁移的过程中，我总结了一些非常实用的技术技巧。虽然我不赞同“最佳实践”这一术语，因为它可能暗示了通用的解决方案，但这些技巧在实际项目中确实能够显著提升开发效率和代码质量。本文将深入解析并探讨这四大高级技巧的具体应用，帮助开发者更好地利用Java 8的强大功能。 ... [详细]

蜡笔小新 2024-11-08 18:35:48
const
在 PHP 中为各个方法添加身份验证：针对不同方法参数实施认证（基于 Restler 3 框架）

在 PHP 中使用 Restler 3 框架为不同方法添加身份验证时，可以根据方法参数的特定值来限制访问。例如，在 `Simple.php` 文件中定义的 `Simple` 类中，可以通过检查 `$name` 参数的值来决定是否允许调用 `item` 方法。这种细粒度的认证机制可以提高系统的安全性和灵活性。具体实现方式包括在方法内部进行条件判断，并结合框架提供的认证工具来实现访问控制。 ... [详细]

蜡笔小新 2024-11-06 12:08:56
main
深入解析数据结构：哈希表（Hash Table）的应用与优化

哈希表（Hash Table）是一种高效的查找算法，与传统的链表和树结构相比，其在查找过程中无需进行逐个元素的比较。本文将深入探讨哈希表的基本原理、应用场景以及优化策略，帮助读者全面理解其在实际开发中的优势和局限性。通过实例分析和代码示例，我们将展示如何有效利用哈希表提高数据处理效率，并解决常见的冲突问题。 ... [详细]

蜡笔小新 2024-11-05 12:25:45
request
探索阿里云RDS中MySQL的高效压缩存储引擎TokuDB应用

在过去，我曾使用过自建MySQL服务器中的MyISAM和InnoDB存储引擎（也曾尝试过Memory引擎）。今年初，我开始转向阿里云的关系型数据库服务，并深入研究了其高效的压缩存储引擎TokuDB。TokuDB在数据压缩和处理大规模数据集方面表现出色，显著提升了存储效率和查询性能。通过实际应用，我发现TokuDB不仅能够有效减少存储成本，还能显著提高数据处理速度，特别适用于高并发和大数据量的场景。 ... [详细]

蜡笔小新 2024-11-04 11:36:52
request
在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理

在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理 ... [详细]

蜡笔小新 2024-11-03 14:38:15

fhuwiop

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章