Flink系列之Flink中Broadcast和Counter整理和实战

作者：中国人TM | 来源：互联网 | 2023-07-25 18:34

title:Flink系列六、FlinkBroadcast编程实战6.1理论Flink的批处理和Spark的批处理，都支持两个非常好的特性：广播变量

title: Flink系列

六、Flink Broadcast 编程实战

6.1 理论

Flink 的批处理和 Spark 的批处理&＃xff0c;都支持两个非常好的特性&＃xff1a; 广播变量 &＃43; 累加器

广播变量允许编程人员在每台机器上保持1个只读的缓存变量&＃xff0c;而不是传送变量的副本给tasks&＃xff0c;广播变量创建后&＃xff0c;它可以运行在集群中的任何function上&＃xff0c;而不需要多次传递给集群节点。另外需要记住&＃xff0c;不应该修改广播变量&＃xff0c;这样才能确保每个节点获取到的值都是一致的

一句话解释&＃xff0c;可以理解为是一个公共的共享变量&＃xff0c;我们可以把一个dataset 数据集广播出去&＃xff0c;然后不同的task在节点上都能够获取到&＃xff0c;这个数据在每个节点上只会存在一份。如果不使用broadcast&＃xff0c;则在每个节点中的每个task中都需要拷贝一份dataset数据集&＃xff0c;比较浪费内存(也就是一个节点中可能会存在多份dataset数据)。

用法&＃xff1a;

// 1&＃xff1a;初始化数据 DataSet toBroadcast &＃61; env.fromElements(1, 2, 3) // 2&＃xff1a;广播数据 withBroadcastSet(toBroadcast, "broadcastSetName"); // 3&＃xff1a;获取数据 Collection broadcastSet &＃61; getRuntimeContext().getBroadcastVariable("broadcastSetName");

注意&＃xff1a;

1&＃xff1a;广播出去的变量存在于每个节点的内存中&＃xff0c;所以这个数据集不能太大。因为广播出去的数据&＃xff0c;会常驻内存&＃xff0c;除非程序执行结束。 2&＃xff1a;广播变量在初始化广播出去以后不支持修改&＃xff0c;这样才能保证每个节点的数据都是一致的。

6.2 案例

package com.aa.flinkjava.broadcast; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.common.functions.RichMapFunction; import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.operators.DataSource; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.configuration.Configuration; import java.util.ArrayList; import java.util.HashMap; import java.util.List; /** * &＃64;Author AA * &＃64;Date 2022/2/24 19:37 * &＃64;Project bigdatapre * &＃64;Package com.aa.flinkjava.broadcast * Flink BroadCast 测试 * 在这里做一个join的连接实现 */ public class FlinkBroadCastDemo { public static void main(String[] args) throws Exception { //1、获取运行环境 ExecutionEnvironment executionEnvironment &＃61; ExecutionEnvironment.getExecutionEnvironment(); //2、造数据 ArrayList<Tuple2<String,Integer>> list &＃61; new ArrayList<>(); list.add(new Tuple2<>("zhangsan",20)); list.add(new Tuple2<>("lisi",21)); list.add(new Tuple2<>("wangwu",22)); //3、读取造的数据 DataSource<Tuple2<String, Integer>> dataSource &＃61; executionEnvironment.fromCollection(list); dataSource.print("dataSource : "); //4、帮tuple2转化为hashmap 。 map中的key是用户姓名&＃xff0c;value是用户年龄 // DataSet>的数据类型可以直接修饰强制转换。 DataSet<HashMap<String, Integer>> toBroadcast &＃61; dataSource.map(new MapFunction<Tuple2<String, Integer>, HashMap<String, Integer>>() { &＃64;Override public HashMap<String, Integer> map(Tuple2<String, Integer> tuple2) throws Exception { HashMap<String, Integer> hashMap &＃61; new HashMap<>(); hashMap.put(tuple2.f0,tuple2.f1); return hashMap; } }); //5、再造一份 join 使用的数据 DataSource<String> data2 &＃61; executionEnvironment.fromElements("zhangsan", "lisi", "wangwu"); data2.print("data2 : "); //6、执行广播数据的一些操作 // 下面这个DataSet类型也是强制转换的的 DataSet<String> result &＃61; data2.map(new RichMapFunction<String, String>() { List<HashMap<String, Integer>> broadCastMap &＃61; new ArrayList<HashMap<String, Integer>>(); HashMap<String, Integer> allMap &＃61; new HashMap<String, Integer>(); &＃64;Override public void open(Configuration parameters) throws Exception { super.open(parameters); this.broadCastMap &＃61; getRuntimeContext().getBroadcastVariable("bdMapName"); for (HashMap map : broadCastMap) { allMap.putAll(map); } } /** * &＃64;param s s是data2中间的一个一个的元素&＃xff0c;其实就是"zhangsan", "lisi", "wangwu" 这些值 * 根据 name("zhangsan", "lisi", "wangwu") 去广播变量中匹配获取相应的年龄 * &＃64;return * &＃64;throws Exception */ &＃64;Override public String map(String s) throws Exception { Integer age &＃61; allMap.get(s); return s &＃43; "," &＃43; age; //输出拼接的结果 } }).withBroadcastSet(toBroadcast, "bdMapName"); //7、打印输出 result.print(); } }
七、Flink Counter 编程实战

7.1 理论

Accumulator 即累加器&＃xff0c;与 Mapreduce Counter 的应用场景差不多&＃xff0c;都能很好地观察 Task 在运行期间的数据变化。可以在 Flink job 任务中的算子函数中操作累加器&＃xff0c;但是只能在任务执行结束之后才能获得累加器的最终结果。

Counter 是一个具体的累加器 (Accumulator) 实现&＃xff1a;IntCounter, LongCounter 和 DoubleCounter

用法&＃xff1a;

// 1、创建累加器 private IntCounter numlines &＃61; new IntCounter(); // 2、注册累加器 getRuntimeContext().addAccumulator("num", this.numLines); // 3、使用累加器 this.numlines.add(1); // 4、获取累加器的结果 myJobExecutionResult.getAccumulatorResult("num")

7.2 案例

package com.aa.flinkjava.counter; import org.apache.flink.api.common.JobExecutionResult; import org.apache.flink.api.common.accumulators.IntCounter; import org.apache.flink.api.common.functions.RichMapFunction; import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.operators.DataSource; import org.apache.flink.api.java.operators.MapOperator; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.configuration.Configuration; import java.util.ArrayList; /** * &＃64;Author AA * &＃64;Date 2022/2/25 14:27 * &＃64;Project bigdatapre * &＃64;Package com.aa.flinkjava.counter * Flink 累加器示例 * 统计输入数据源的流入数据的次数。 */ public class FlinkCounterDemo { public static void main(String[] args) throws Exception { //1、获取运行环境 ExecutionEnvironment executionEnvironment &＃61; ExecutionEnvironment.getExecutionEnvironment(); executionEnvironment.setParallelism(3); //2、读取造的数据 DataSource<String> dataSource &＃61; executionEnvironment.fromElements("a", "b", "c", "d", "e", "f", "g", "h", "i", "j"); //3、定义一点逻辑&＃xff0c;给累加器放进去 MapOperator<String, String> result &＃61; dataSource.map(new RichMapFunction<String, String>() { //3-1 创建累加器对象 private IntCounter numlines &＃61; new IntCounter(); &＃64;Override public void open(Configuration parameters) throws Exception { super.open(parameters); //3-2 需要注册累加器 /* 在逻辑上来说&＃xff0c;相当于在这个 application应用内部定义了一个变量 num 用来做统计。但是&＃xff0c;物理上&＃xff0c;其实这个 num 变量是由分散在所有 Task 内部的 numlines 组成的。一个 num 包含了很多个 numlines。其实最终拿到的结果&＃xff0c;就是把所有 Task 中的 numlines 加起来&＃xff0c;就是 num 的值。 */ this.getRuntimeContext().addAccumulator("num", this.numlines); } &＃64;Override public String map(String s) throws Exception { //另外注意&＃xff0c;可能有小伙伴觉得可以在这里定义普通变量统计也行&＃xff0c; // 注意&＃xff1a;若并行度为1&＃xff0c;使用普通的累加求和也可以&＃xff0c;但是设置多个并行度&＃xff0c;则普通的累加求和结果就不准啦。 //每运行一次就向累加器中添加1 this.numlines.add(1); return s; //这里没有做什么逻辑&＃xff0c;就是给来的数据原样输出了。但是上面统计了累加次数了。 } }); //4、给结果输出出去 result.writeAsText("D:\\flinkcount3"); //5、执行 JobExecutionResult jobExecutionResult &＃61; executionEnvironment.execute(); //6、看看累加器的结果 Integer num &＃61; jobExecutionResult.getAccumulatorResult("num"); System.out.println("累加器的输出的结果是&＃xff1a; " &＃43; num); } }

声明&＃xff1a;
文章中代码及相关语句为自己根据相应理解编写&＃xff0c;文章中出现的相关图片为自己实践中的截图和相关技术对应的图片&＃xff0c;若有相关异议&＃xff0c;请联系删除。感谢。转载请注明出处&＃xff0c;感谢。

By luoyepiaoxue2014

B站&＃xff1a; https://space.bilibili.com/1523287361 点击打开链接
微博地址&＃xff1a; http://weibo.com/luoyepiaoxue2014 点击打开链接

推荐阅读

function
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
web
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
function
深入解析Java 8并发编程：AtomicInteger源码详解与应用分析

本文深入解析了Java 8并发编程中的`AtomicInteger`类，详细探讨了其源码实现和应用场景。`AtomicInteger`通过硬件级别的原子操作，确保了整型变量在多线程环境下的安全性和高效性，避免了传统加锁方式带来的性能开销。文章不仅剖析了`AtomicInteger`的内部机制，还结合实际案例展示了其在并发编程中的优势和使用技巧。 ... [详细]

蜡笔小新 2024-11-06 19:11:47
function
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
web
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
express
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
express
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
hash
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
web
开发中遇到的一些常见问题及解决方案

本文总结了一些开发中常见的问题及其解决方案，包括特性过滤器的使用、NuGet程序集版本冲突、线程存储、溢出检查、ThreadPool的最大线程数设置、Redis使用中的问题以及Task.Result和Task.GetAwaiter().GetResult()的区别。 ... [详细]

蜡笔小新 2024-11-12 08:20:05
uri
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
bit
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
char
Delphi中剪切板操作：AsText、SetTextBuf、GetTextBuf

本文介绍了如何在Delphi中使用剪切板类TClipboard进行文本的复制和粘贴操作，包括AsText属性、SetTextBuf方法和GetTextBuf方法的具体使用。 ... [详细]

蜡笔小新 2024-11-14 16:45:04
case
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
case
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
function
需要知道一个“本地到屏幕坐标”的函数 - Need to know a “Local to screen Coordinate” function

Iwouldliketohaveatooltopdisplayedonatextboxunderacertainsituation.我希望在特定情况下在文本框中显示工具栏 ... [详细]

蜡笔小新 2024-11-14 13:03:06

中国人TM

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章