当前位置: 开发笔记 > 编程语言 > 正文

零基础学Flink：Join两个流

作者：手机用户2702932415_836 | 来源：互联网 | 2023-08-27 09:22

零基础学Flink：Join两个流,Go语言社区,Golang程序员人脉社

《零基础学Flink》这个系列已经做了不少篇了，接下来几章会更加贴近案例来说明一些功能，今天我们先来说说如何将两个流join起来。这次我们以实时汇率和订单流合并为最后牌价为案例，进行说明。

案例代码存放在 https://github.com/dafei1288/flink_casestudy

原理介绍

首先流和流的Join的基本原理和表之间join是一样的，但是由于窗口本身性质的原因，流和流Join还是分为以下几个类型。

下图是滚动窗口合并，每个窗口内，数据独立合并，没有重叠。

640?wx_fmt=png

下图是滑动窗口合并，每个窗口内，数据独立合并，由于滑动窗口，有数据重叠。

640?wx_fmt=png

下图是Session窗口合并，在会话间隙为一个窗口，窗口内数据独立计算。

640?wx_fmt=png

下图是间隔关联合并，在时间流上下界，数据合并，有部分数据重叠。

640?wx_fmt=png

官方文档的这几张图，还是很清晰的说明的这几个连接的情况的。另外对datastream的转换对应关系，下图还是讲述的比较清晰的。

640?wx_fmt=png

案例

我们构建来2个数据流，一条为实时汇率，一条为订单流，两条流合并，订单价格*汇率计算出最终价格。

本次案例，我们还是先用flink sink到kafka（有兴趣的同学，可以翻阅之前的文章，有详细说明），然后再消费kafka的数据。

下面为订单流，订单包括字段

时间戳（Long）
商品大类（String）
商品细目（Integer）
货币类型（String）
价格（Integer）

package dummy;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSink;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer010;
import java.util.HashMap;
import java.util.Map;
import java.util.Random;
public class OrderWriter {

public static void main(String[] args) throws Exception{
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Map prop = new HashMap();
prop.put("bootstrap.servers", "localhost:9092");
prop.put("topic", "order");
ParameterTool parameterTool = ParameterTool.fromMap(prop);
DataStream messageStream = env.addSource(new SourceFunction() {
private Random r = new Random();
private static final long serialVersionUID = 1L;
boolean running = true;
@Override
public void run(SourceContext ctx) throws Exception {
while(running) {
Thread.sleep(r.nextInt(1500));
char catlog = (char) (65 + r.nextInt(5));
ctx.collect(String.format("%d,%s,%d,%s,%d", System.currentTimeMillis(), String.valueOf(catlog), r.nextInt(5), RateWriter.HBDM[r.nextInt(RateWriter.HBDM.length)], r.nextInt(1000)));
}
}
@Override
public void cancel() {
running = false;
}
});
DataStreamSink airQualityVODataStreamSink = messageStream.addSink(new FlinkKafkaProducer010<>(parameterTool.getRequired("bootstrap.servers"),
parameterTool.getRequired("topic"),
new SimpleStringSchema()));
messageStream.print();
env.execute("write order to kafka !!!");
}
}

下面为汇率，订单包括字段，这里为了简单，我们将汇率定义为整形了

时间戳（Long）
货币类型（String）
汇率（Integer）

汇率定义为以下几个类型

{"BEF","CNY","DEM","EUR","HKD","USD","ITL"};

package dummy;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSink;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer010;
import java.util.HashMap;
import java.util.Map;
import java.util.Random;
public class RateWriter {
public static final String[] HBDM = {"BEF","CNY","DEM","EUR","HKD","USD","ITL"};
public static void main(String[] args) throws Exception{
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Map prop = new HashMap();
prop.put("bootstrap.servers", "localhost:9092");
prop.put("topic", "rate");
ParameterTool parameterTool = ParameterTool.fromMap(prop);
DataStream messageStream = env.addSource(new SourceFunction() {
private Random r = new Random();
private static final long serialVersionUID = 1L;
boolean running = true;
@Override
public void run(SourceContext ctx) throws Exception {
while(running) {
Thread.sleep(r.nextInt(3) * 1000);
ctx.collect(String.format("%d,%s,%d", System.currentTimeMillis(), HBDM[r.nextInt(HBDM.length)], r.nextInt(20)));
}
}
@Override
public void cancel() {
running = false;
}
});
DataStreamSink airQualityVODataStreamSink = messageStream.addSink(new FlinkKafkaProducer010<>(parameterTool.getRequired("bootstrap.servers"),
parameterTool.getRequired("topic"),
new SimpleStringSchema()));
messageStream.print();
env.execute("write rate to kafka !!!");
}
}

下面为合并的具体代码：

package cn.flinkhub.ratedemo;
import org.apache.flink.api.common.functions.JoinFunction;
import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.*;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.AscendingTimestampExtractor;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;
public class App {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Map properties= new HashMap();
properties.put("bootstrap.servers", "localhost:9092");
properties.put("group.id", "test");
properties.put("enable.auto.commit", "true");
properties.put("auto.commit.interval.ms", "1000");
properties.put("auto.offset.reset", "earliest");
properties.put("session.timeout.ms", "30000");
// properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
// properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("topicOrder", "order");
properties.put("topicRate", "rate");
ParameterTool parameterTool = ParameterTool.fromMap(properties);
FlinkKafkaConsumer010 consumer010Rate = new FlinkKafkaConsumer010(
parameterTool.getRequired("topicRate"), new DeserializationSchema() {
@Override
public TypeInformation getProducedType() {
return TypeInformation.of(new TypeHint,String,Integer>>(){});
//return TypeInformation.of(new TypeHint(){});
}

@Override
public Tuple3,String,Integer> deserialize(byte[] message) throws IOException {
String[] res = new String(message).split(",");
Long timestamp = Long.valueOf(res[0]);
String dm = res[1];
Integer value = Integer.valueOf(res[2]);
return Tuple3.of(timestamp,dm,value);
}

@Override
public boolean isEndOfStream(Object nextElement) {
return false;
}
}, parameterTool.getProperties());
FlinkKafkaConsumer010 consumer010Order = new FlinkKafkaConsumer010(
parameterTool.getRequired("topicOrder"), new DeserializationSchema() {
@Override
public TypeInformation getProducedType() {
return TypeInformation.of(new TypeHint,String,Integer,String,Integer>>(){});
}

@Override
public Tuple5,String,Integer,String,Integer> deserialize(byte[] message) throws IOException {
//%d,%s,%d,%s,%d
String[] res = new String(message).split(",");
Long timestamp = Long.valueOf(res[0]);
String catlog = res[1];
Integer subcat = Integer.valueOf(res[2]);
String dm = res[3];
Integer value = Integer.valueOf(res[4]);
return Tuple5.of(timestamp,catlog,subcat,dm,value);
}

@Override
public boolean isEndOfStream(Object nextElement) {
return false;
}
}, parameterTool.getProperties());
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
env.setParallelism(1);
DataStream,String,Integer>> rateStream = env.addSource(consumer010Rate);
DataStream,String,Integer,String,Integer>> oraderStream = env.addSource(consumer010Order);
long delay = 1000;
DataStream,String,Integer>> rateTimedStream = rateStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor,String,Integer>>(Time.milliseconds(delay)) {
@Override
public long extractTimestamp(Tuple3, String, Integer> element) {
return (Long)element.getField(0);
}
});
DataStream,String,Integer,String,Integer>> oraderTimedStream = oraderStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor,String,Integer,String,Integer>>() {
@Override
public long extractAscendingTimestamp(Tuple5 value) {

return (Long)value.getField(0);
}
});
DataStream,String,Integer,String,Integer,Long,String,Integer,Integer>> joinedStream = oraderTimedStream.join(rateTimedStream).where(new KeySelector,String,Integer,String,Integer>,String>(){
@Override
public String getKey(Tuple5,String,Integer,String,Integer> value) throws Exception {
// System.out.println(value.getField(3).toString());
return value.getField(3).toString();
}
}).equalTo(new KeySelector,String,Integer>,String>(){
@Override
public String getKey(Tuple3,String,Integer> value) throws Exception {
// System.out.println(value.getField(1).toString());
return value.getField(1).toString();
}
}).window(TumblingEventTimeWindows.of(Time.seconds(10)))
.apply(new JoinFunction,String,Integer,String,Integer>, Tuple3,String,Integer>,Tuple9,String,Integer,String,Integer,Long,String,Integer,Integer>>() {
@Override
public Tuple9,String,Integer,String,Integer,Long,String,Integer,Integer> join( Tuple5,String,Integer,String,Integer> first, Tuple3,String,Integer>second) throws Exception {
Integer res = (Integer)second.getField(2)*(Integer)first.getField(4);
return Tuple9.of(first.f0,first.f1,first.f2,first.f3,first.f4,second.f0,second.f1,second.f2,res);
}
});
joinedStream.print();
env.execute("done!");
}
}

首先，我们再消费kafka数据流的时候，定义个一个匿名类来规定如何消费数据，这里我们将数据切分成元组。

new DeserializationSchema() {
@Override
public TypeInformation getProducedType() {
return TypeInformation.of(new TypeHint,String,Integer>>(){});
//return TypeInformation.of(new TypeHint(){});
}

@Override
public Tuple3,String,Integer> deserialize(byte[] message) throws IOException {
String[] res = new String(message).split(",");
Long timestamp = Long.valueOf(res[0]);
String dm = res[1];
Integer value = Integer.valueOf(res[2]);
return Tuple3.of(timestamp,dm,value);
}

@Override
public boolean isEndOfStream(Object nextElement) {
return false;
}
}

然后为两个流添加事件时间。

DataStream,String,Integer>> rateTimedStream = rateStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor,String,Integer>>(Time.milliseconds(delay)) {
@Override
public long extractTimestamp(Tuple3, String, Integer> element) {
return (Long)element.getField(0);
}
});
DataStream,String,Integer,String,Integer>> oraderTimedStream = oraderStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor,String,Integer,String,Integer>>() {
@Override
public long extractAscendingTimestamp(Tuple5 value) {

return (Long)value.getField(0);
}
});

接下来，就是将两条流合并起来，要再where和equalTo的两个方法里，设置连接条件，然后通过window设置时间窗口，通过apply方法将join的数据最后结果拼装起来。

DataStream,String,Integer,String,Integer,Long,String,Integer,Integer>> joinedStream = oraderTimedStream.join(rateTimedStream).where(new KeySelector,String,Integer,String,Integer>,String>(){
@Override
public String getKey(Tuple5,String,Integer,String,Integer> value) throws Exception {
// System.out.println(value.getField(3).toString());
return value.getField(3).toString();
}
}).equalTo(new KeySelector,String,Integer>,String>(){
@Override
public String getKey(Tuple3,String,Integer> value) throws Exception {
// System.out.println(value.getField(1).toString());
return value.getField(1).toString();
}
}).window(TumblingEventTimeWindows.of(Time.seconds(10)))
.apply(new JoinFunction,String,Integer,String,Integer>, Tuple3,String,Integer>,Tuple9,String,Integer,String,Integer,Long,String,Integer,Integer>>() {
@Override
public Tuple9,String,Integer,String,Integer,Long,String,Integer,Integer> join( Tuple5,String,Integer,String,Integer> first, Tuple3,String,Integer>second) throws Exception {
Integer res = (Integer)second.getField(2)*(Integer)first.getField(4);
return Tuple9.of(first.f0,first.f1,first.f2,first.f3,first.f4,second.f0,second.f1,second.f2,res);
}
});

下面来看看执行效果

生成订单流数据:

640?wx_fmt=png

生成汇率流数据：

640?wx_fmt=png

合并后的结果数据流

640?wx_fmt=png

好了，今天的案例就讲解到这里，下次我计划来说一说，如何统计计算实时热门Top5

参考连接：

https://ci.apache.org/projects/flink/flink-docs-master/dev/stream/operators/joining.html

http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/

推荐阅读

jar
Golang如何使用Cookie跟踪位置

关键词：Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]

蜡笔小新 2023-12-13 15:47:22
config
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
ip
GreenDAO快速入门

前言之前在自己做项目的时候，用到了GreenDAO数据库，其实对于数据库辅助工具库从OrmLite，到litePal再到GreenDAO，总是在不停的切换，但是没有真正去了解他们的 ... [详细]

蜡笔小新 2023-12-11 12:31:00
main
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
case
Java猜拳小游戏代码

本文介绍了一个Java猜拳小游戏的代码，通过使用Scanner类获取用户输入的拳的数字，并随机生成计算机的拳，然后判断胜负。该游戏可以选择剪刀、石头、布三种拳，通过比较两者的拳来决定胜负。 ... [详细]

蜡笔小新 2023-12-14 15:39:08
md5
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
main
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
case
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
case
差分约束系统求解House Man跳跃问题的思路与方法

本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度，要求从最低点跳跃到最高点，每次跳跃的距离不超过D，并且不能改变给定的顺序。通过建立差分约束系统，将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法，并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]

蜡笔小新 2023-12-14 11:49:51
main
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
case
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
ip
Oracle seg,V$TEMPSEG_USAGE与Oracle排序的关系及使用方法

本文介绍了Oracle seg,V$TEMPSEG_USAGE与Oracle排序之间的关系，V$TEMPSEG_USAGE是V_$SORT_USAGE的同义词，通过查询dba_objects和dba_synonyms视图可以了解到它们的详细信息。同时，还探讨了V$TEMPSEG_USAGE的使用方法。 ... [详细]

蜡笔小新 2023-12-12 17:57:15
ip
RouterOS 5.16软路由安装图解教程

本文介绍了如何安装RouterOS 5.16软路由系统，包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程，方便读者进行操作。 ... [详细]

蜡笔小新 2023-12-12 10:22:22
ip
Hibernate延迟加载深入分析-集合属性的延迟加载策略

本文深入分析了Hibernate延迟加载的机制，特别是集合属性的延迟加载策略。通过延迟加载，可以降低系统的内存开销，提高Hibernate的运行性能。对于集合属性，推荐使用延迟加载策略，即在系统需要使用集合属性时才从数据库装载关联的数据，避免一次加载所有集合属性导致性能下降。 ... [详细]

蜡笔小新 2023-12-10 14:26:13

手机用户2702932415_836

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章