【05】Flink之DataStreamAPI（三）：Partition操作

作者：MS07224_670 | 来源：互联网 | 2023-08-26 04:51

1、Partition操作常用APIRandompartitioningRebalancing

1、Partition 操作常用API

Random partitioning
Rebalancing
Rescaling
Custom partitioning
Broadcasting

Random partitioning：随机分区
使用dataStream.shuffle()方法
底层实现：

public class ShufflePartitioner extends StreamPartitioner { private static final long serialVersiOnUID= 1L; private Random random = new Random(); private final int[] returnArray = new int[1]; @Override public int[] selectChannels(SerializationDelegate> record, int numberOfOutputChannels) { // 获取所有 channel 数 returnArray[0] = random.nextInt(numberOfOutputChannels); // 得到一个 0 - channel_num 之间的数值 return returnArray; // 该返回的数值决定了要分到哪个区 } @Override public StreamPartitioner copy() { return new ShufflePartitioner(); } @Override public String toString() { return "SHUFFLE"; } }

Rebalancing：对数据集进行再平衡，重分区，消除数据倾斜 \color{red}{消除数据倾斜}消除数据倾斜
使用dataStream.rebalance()方法

底层实现：

public class RebalancePartitioner extends StreamPartitioner { private static final long serialVersiOnUID= 1L; private final int[] returnArray = new int[] {-1}; @Override public int[] selectChannels(SerializationDelegate> record, int numberOfOutputChannels) { int newChannel = ++this.returnArray[0]; // 获取 0 号元素的数据，通过加1，指向下一个channel if (newChannel >= numberOfOutputChannels) { // 如果大于等于 channel数，则加到头了，重新再从 0号channel开始分发 this.returnArray[0] = 0; } return this.returnArray; } public StreamPartitioner copy() { return this; } @Override public String toString() { return "REBALANCE"; } }

Rescaling：
使用dataStream.rescale()方法
举例：
如果上游操作有2个并发，而下游操作有4个并发，那么上游的一个并发结果分配给下游的两个并发操作，另外的一个并发结果分配给了下游的另外两个并发操作.另一方面，下游有两个并发操作而上游又4个并发操作，那么上游的其中两个操作的结果分配给下游的一个并发操作而另外两个并发操作的结果则分配给另外一个并发操作。

注意：

Rescaling与Rebalancing的区别：
Rebalancing会产生全量重分区，而Rescaling不会。

Custom partitioning：自定义分区
自定义分区需要实现Partitioner接口
使用dataStream.partitionCustom(partitioner, “someKey”)方法
或者
使用dataStream.partitionCustom(partitioner, 0); 方法
Broadcasting

2、自定义分区 Custom partitioning

自定义分区
自定义分区需要实现Partitioner接口

2.1 Java代码实现

实现根据奇、偶数分区

public class MyPartition implements Partitioner { @Override public int partition(Long key, int numPartitions) { System.out.println("分区总数："+numPartitions); if(key % 2 == 0){ return 0; }else{ return 1; } } }

dataStream.partitionCustom(partitioner, "someKey")

或者:

dataStream.partitionCustom(partitioner, 0);

完整代码：

package com.Streaming.custormPartition; import com.Streaming.custormSource.MyNoParalleSource; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.tuple.Tuple1; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; /** * @Author: Henry * @Description: 使用自定义分析 * 根据数字的奇偶性来分区 * @Date: Create in 2019/5/12 19:21 **/ public class SteamingDemoWithMyParitition { public static void main(String[] args) throws Exception{ StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(2); DataStreamSource text = env.addSource(new MyNoParalleSource()); //对数据进行转换，把long类型转成tuple1类型 DataStream> tupleData = text.map(new MapFunction>() { @Override public Tuple1 map(Long value) throws Exception { return new Tuple1<>(value); } }); //分区之后的数据 DataStream> partitiOnData= tupleData.partitionCustom(new MyPartition(), 0); DataStream result = partitionData.map(new MapFunction, Long>() { @Override public Long map(Tuple1 value) throws Exception { System.out.println("当前线程id：" + Thread.currentThread().getId() + ",value: " + value); return value.getField(0); } }); result.print().setParallelism(1); env.execute("SteamingDemoWithMyParitition"); } }

2.2、运行结果

分数总数：8 （因为没有设置并行度）
虽然并行度是8，但是实际只有两个线程工作：即线程id=68 和线程id=69
线程id=68，处理奇数分区
线程id=69，处理偶数分区

由上图代码，可以根据业务设置并行度，即 env.setParallelism(2) ;

2.3 Scala代码实现

自定义分区代码如下：

package cn.Streaming.custormPartition import org.apache.flink.api.common.functions.Partitioner /** * @Author: HongZhen * @Description: * @Date: Create in 2019/5/14 22:16 **/ class MyPartitionerScala extends Partitioner[Long]{ override def partition(key: Long, numPartitions: Int) = { println("分区总数："+numPartitions) if(key % 2 ==0){ 0 }else{ 1 } } }

主程序代码：

package cn.Streaming.custormPartition import cn.Streaming.custormSource.MyNoParallelSourceScala import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment /** * @Author: Henry * @Description: * @Date: Create in 2019/5/14 22:17 **/ object StreamingDemoMyPartitionerScala { def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironment.getExecutionEnvironment env.setParallelism(2) //隐式转换 import org.apache.flink.api.scala._ val text = env.addSource(new MyNoParallelSourceScala) //把long类型的数据转成tuple类型 val tupleData = text.map(line=>{ Tuple1(line)// 注意tuple1的实现方式 // Tuple2 可以直接写成如 (line,1) // 但是 Tuple1 必须加上关键词 Tuple1 }) // 上面将 Long 转换为 Tuple1[Long] 的原因是由于 // partitionCustom 的 field 参数类型: Tuple1[K] val partitiOnData= tupleData.partitionCustom( new MyPartitionerScala, 0 ) val result = partitionData.map(line=>{ println("当前线程id："+ Thread.currentThread().getId+",value: "+line) line._1 }) result.print().setParallelism(1) env.execute("StreamingDemoWithMyNoParallelSourceScala") } }

2.4 运行结果

推荐阅读

string
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
list
分享一款基于Java开发的经典贪吃蛇游戏实现

本文介绍了一款使用Java语言开发的经典贪吃蛇游戏的实现。游戏主要由两个核心类组成：`GameFrame` 和 `GamePanel`。`GameFrame` 类负责设置游戏窗口的标题、关闭按钮以及是否允许调整窗口大小，并初始化数据模型以支持绘制操作。`GamePanel` 类则负责管理游戏中的蛇和苹果的逻辑与渲染，确保游戏的流畅运行和良好的用户体验。 ... [详细]

蜡笔小新 2024-11-08 17:59:38
int
深入解析Java 8并发编程：AtomicInteger源码详解与应用分析

本文深入解析了Java 8并发编程中的`AtomicInteger`类，详细探讨了其源码实现和应用场景。`AtomicInteger`通过硬件级别的原子操作，确保了整型变量在多线程环境下的安全性和高效性，避免了传统加锁方式带来的性能开销。文章不仅剖析了`AtomicInteger`的内部机制，还结合实际案例展示了其在并发编程中的优势和使用技巧。 ... [详细]

蜡笔小新 2024-11-06 19:11:47
list
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
list
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
js
Maven Web项目创建时JSP文件常见错误及解决方案

Maven Web项目创建时JSP文件常见错误及解决方案 ... [详细]

蜡笔小新 2024-11-10 07:05:14
format
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
list
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
request
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
list
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
byte
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
list
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
string
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
format
深入解析 Java 基础中的私有静态内部类（Private Static Inner Class）

在Java基础中，私有静态内部类是一种常见的设计模式，主要用于防止外部类的直接调用或实例化。这种内部类仅服务于其所属的外部类，确保了代码的封装性和安全性。通过分析JDK源码，我们可以发现许多常用类中都包含了私有静态内部类，这些内部类虽然功能强大，但其复杂性往往让人感到困惑。本文将深入探讨私有静态内部类的作用、实现方式及其在实际开发中的应用，帮助读者更好地理解和使用这一重要的编程技巧。 ... [详细]

蜡笔小新 2024-11-09 11:03:51
list
ButterKnife的基础应用与实践指南

ButterKnife 是一款用于 Android 开发的注解库，主要用于简化视图和事件绑定。本文详细介绍了 ButterKnife 的基础用法，包括如何通过注解实现字段和方法的绑定，以及在实际项目中的应用示例。此外，文章还提到了截至 2016 年 4 月 29 日，ButterKnife 的最新版本为 8.0.1，为开发者提供了最新的功能和性能优化。 ... [详细]

蜡笔小新 2024-11-07 13:17:24

MS07224_670

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章