当前位置: 开发笔记 > 编程语言 > 正文

一篇文章搞懂Flink的Window

作者：魏蚊瑞 | 来源：互联网 | 2023-08-18 12:06

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》&＃xff0c;该专栏为笔者原创&＃xff0c;引用请注明来源&＃xff0c;不足和错误之处请在评论区帮忙指出&＃xff0c;谢谢&＃xff01;

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

在这里插入图片描述

为什么需要 window &＃xff1f;

对于流式处理&＃xff0c;如果我们需要求取总和&＃xff0c;平均值&＃xff0c;或者最大值&＃xff0c;最小值等&＃xff0c;是做不到的&＃xff0c;因为数据一直在源源不断的产生&＃xff0c;即数据是没有边界的&＃xff0c;所以没法求最大值&＃xff0c;最小值&＃xff0c;平均值等&＃xff0c;所以为了一些数值统计的功能&＃xff0c;我们必须指定时间段&＃xff0c;对某一段时间的数据求取一些数据值是可以做到的。或者对某一些数据求取数据值也是可以做到的&＃xff0c;所以&＃xff0c;流上的聚合需要由 window 来划定范围&＃xff0c;比如 “计算过去的5分钟” &＃xff0c;或者 “最后100个元素的和” 。

什么是 window &＃xff1f;

window是一种可以把无限数据切割为有限数据块的手段

窗口可以是时间驱动的【Time Window】&＃xff08;比如&＃xff1a;每30秒&＃xff09;或者数据驱动的【Count Window】 &＃xff08;比如&＃xff1a;每100个元素&＃xff09;。

在这里插入图片描述

1、窗口的基本类型介绍

窗口通常被区分为不同的类型:
tumbling windows&＃xff1a;滚动窗口【没有重叠】
sliding windows&＃xff1a;滑动窗口【有重叠】
session windows&＃xff1a;会话窗口 &＃xff0c;一般没人用

tumbling windows类型&＃xff1a;没有重叠的窗口

在这里插入图片描述

sliding windows&＃xff1a;滑动窗口【有重叠】

在这里插入图片描述

2、Flink的窗口介绍

Time Window窗口的应用

time window又分为滚动窗口和滑动窗口&＃xff0c;这两种窗口调用方法都是一样的&＃xff0c;都是调用timeWindow这个方法&＃xff0c;如果传入一个参数就是滚动窗口&＃xff0c;如果传入两个参数就是滑动窗口
在这里插入图片描述

Count Windos窗口的应用

与timeWindow类型&＃xff0c;CountWinodw也可以分为滚动窗口和滑动窗口&＃xff0c;这两个窗口调用方法一样&＃xff0c;都是调用countWindow&＃xff0c;如果传入一个参数就是滚动窗口&＃xff0c;如果传入两个参数就是滑动窗口
在这里插入图片描述

自定义window的应用

如果time window和 countWindow还不够用的话&＃xff0c;我们还可以使用自定义window来实现数据的统计等功能。

在这里插入图片描述

3、window的数值聚合统计

对于某一个window内的数值统计&＃xff0c;我们可以增量的聚合统计或者全量的聚合统计

实践

增量聚合统计&＃xff1a;

窗口当中每加入一条数据&＃xff0c;就进行一次统计
•reduce(reduceFunction)
•aggregate(aggregateFunction)
•sum(),min(),max()
在这里插入图片描述

需求&＃xff1a;通过接收socket当中输入的数据&＃xff0c;统计每5秒钟数据的累计的值

代码实现&＃xff1a;

package com.shockang.study.bigdata.flink.windowimport org.apache.flink.api.common.functions.ReduceFunction import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment} import org.apache.flink.streaming.api.windowing.time.Timeobject FlinkTimeCount {def main(args: Array[String]): Unit &＃61; {val environment: StreamExecutionEnvironment &＃61; StreamExecutionEnvironment.getExecutionEnvironmentimport org.apache.flink.api.scala._val socketStream: DataStream[String] &＃61; environment.socketTextStream("node01", 9000)val print: DataStreamSink[(Int, Int)] &＃61; socketStream.map(x &＃61;> (1, x.toInt)).keyBy(0).timeWindow(Time.seconds(5)).reduce(new ReduceFunction[(Int, Int)] {override def reduce(t: (Int, Int), t1: (Int, Int)): (Int, Int) &＃61; {(t._1, t._2 &＃43; t1._2)}}).print()environment.execute("startRunning")} }

全量聚合统计&＃xff1a;

等到窗口截止&＃xff0c;或者窗口内的数据全部到齐&＃xff0c;然后再进行统计&＃xff0c;可以用于求窗口内的数据的最大值&＃xff0c;或者最小值&＃xff0c;平均值等
等属于窗口的数据到齐&＃xff0c;才开始进行聚合计算【可以实现对窗口内的数据进行排序等需求】
apply(windowFunction)
process(processWindowFunction)

processWindowFunction比windowFunction提供了更多的上下文信息。

需求&＃xff1a;通过全量聚合统计&＃xff0c;求取每3条数据的平均值

package com.shockang.study.bigdata.flink.windowimport org.apache.flink.api.java.tuple.Tuple import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala.function.ProcessWindowFunction import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment} import org.apache.flink.streaming.api.windowing.windows.GlobalWindow import org.apache.flink.util.Collectorobject FlinkCountWindowAvg {def main(args: Array[String]): Unit &＃61; {val environment: StreamExecutionEnvironment &＃61; StreamExecutionEnvironment.getExecutionEnvironmentimport org.apache.flink.api.scala._val socketStream: DataStream[String] &＃61; environment.socketTextStream("node01", 9000)//统计一个窗口内的数据的平均值val socketDatas: DataStreamSink[Double] &＃61; socketStream.map(x &＃61;> (1, x.toInt)).keyBy(0)//.timeWindow(Time.seconds(10)).countWindow(3)//通过process方法来统计窗口的平均值.process(new MyProcessWindowFunctionclass).print()//必须调用execute方法&＃xff0c;否则程序不会执行environment.execute("count avg")} }/** ProcessWindowFunction 需要跟四个参数* 输入参数类型&＃xff0c;输出参数类型&＃xff0c;聚合的key的类型&＃xff0c;window的下界**/ class MyProcessWindowFunctionclass extends ProcessWindowFunction[(Int, Int), Double, Tuple, GlobalWindow] {override def process(key: Tuple, context: Context, elements: Iterable[(Int, Int)], out: Collector[Double]): Unit &＃61; {var totalNum &＃61; 0;var countNum &＃61; 0;for (data <- elements) {totalNum &＃43;&＃61; 1countNum &＃43;&＃61; data._2}out.collect(countNum / totalNum)} }

推荐阅读

heap
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
stream
关于存储:Streaming-Data-Warehouse-存储需求与架构

在计算机领域，数据仓库（DW或DWH），是一个用于报告和数据分析的零碎，被认为是商业智能的一个外围组成部分。它将以后和历史数据存储在一个中央，为整个企 ... [详细]

蜡笔小新 2023-10-12 23:20:28
sum
2022.4.2学习成果

Flink中的编程模型4.1编程模型在Flink，编程模型的抽象层级主要分为以下4种，越往下抽象度越低，编程越复杂，灵活度越高。这里先不一一介绍，后续会做详细说明。这4层中，一般用 ... [详细]

蜡笔小新 2023-10-12 17:17:52
sum
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
stream
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
sum
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
sum
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
stream
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
stream
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
random
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
random
Activiti7流程定义开发笔记

本文介绍了Activiti7流程定义的开发笔记，包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式，以及生成流程图的方法。还介绍了流程定义部署的概念和步骤，包括将bpmn和png文件添加部署到activiti数据库中的方法，以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]

蜡笔小新 2023-12-10 19:22:56
random
Android View(一)-View坐标以及方法说明

本文详细介绍了Android中的坐标系以及与View相关的方法。首先介绍了Android坐标系和视图坐标系的概念，并通过图示进行了解释。接着提到了View的大小可以超过手机屏幕，并且只有在手机屏幕内才能看到。最后，作者表示将在后续文章中继续探讨与View相关的内容。 ... [详细]

蜡笔小新 2023-12-10 13:13:29
jar
shiro java配置问题：加入Shiro listener后启动失败

本文讨论了在shiro java配置中加入Shiro listener后启动失败的问题。作者引入了一系列jar包，并在web.xml中配置了相关内容，但启动后却无法正常运行。文章提供了具体引入的jar包和web.xml的配置内容，并指出可能的错误原因。该问题可能与jar包版本不兼容、web.xml配置错误等有关。 ... [详细]

蜡笔小新 2023-12-10 09:43:05
client
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
stream
在泛型字典类中使用foreach

本文介绍了在实现了System.Collections.Generic.IDictionary接口的泛型字典类中如何使用foreach循环来枚举字典中的键值对。同时还讨论了非泛型字典类和泛型字典类在foreach循环中使用的不同类型，以及使用KeyValuePair类型在foreach循环中枚举泛型字典类的优势。阅读本文可以帮助您更好地理解泛型字典类的使用和性能优化。 ... [详细]

蜡笔小新 2023-12-09 09:22:34