当前位置: 开发笔记 > 后端 > 正文

FlinkExactlyOnce(如何保证数据的唯一性和不重复!)

作者：手机用户2602901335 | 来源：互联网 | 2023-06-02 21:21

Flink-ExactlyOnce(如何保证数据的唯一性和不重复!)kafka中如何保证数据不丢失1.kafka中如何保证数据不丢失2.向kafka中sink数据packageco

Flink-Exactly Once(如何保证数据的唯一性和不重复!) kafka中如何保证数据不丢失

1. kafka中如何保证数据不丢失

2. 向kafka中sink数据

package com.wt.flink.sink import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.connector.kafka.sink.{KafkaRecordSerializationSchema, KafkaSink} import org.apache.flink.streaming.api.scala._ object Demo5KafkaSink { def main(args: Array[String]): Unit = { val env: StreamExecutiOnEnvironment= StreamExecutionEnvironment.getExecutionEnvironment val studentDS: DataStream[String] = env.readTextFile("data/students.json") /** * 将数据保存到kafka中 --- kafka sink * * DeliveryGuarantee.EXACTLY_ONCE：唯一一次 * DeliveryGuarantee.AT_LEAST_ONCE：至少一次，默认 */ val sink: KafkaSink[String] = KafkaSink .builder[String]() .setBootstrapServers("master:9092,node1:9092,node2:9092") //broker地址 .setRecordSerializer( KafkaRecordSerializationSchema .builder[String]() .setTopic("students_json") //topic .setValueSerializationSchema(new SimpleStringSchema()) .build()) //.setDeliverGuarantee(DeliveryGuarantee.AT_LEAST_ONCE) //唯一一次 .build() //使用kafka sink studentDS.sinkTo(sink) env.execute() //kafka-console-consumer.sh --bootstrap-server master:9092,node2:9092,node2:9092 --from-beginning --topic students_json } }

我们在从命令行读取学生的json数据

3 . Flink从kafka中读取数据

package com.wt.flink.core import org.apache.flink.api.common.eventtime.WatermarkStrategy import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.connector.kafka.source.KafkaSource import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer import org.apache.flink.runtime.state.hashmap.HashMapStateBackend import org.apache.flink.streaming.api.CheckpointingMode import org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanup import org.apache.flink.streaming.api.scala._ object Demo16ExactlyOnce { def main(args: Array[String]): Unit = { /** * 使用flink从kafka中读取数据，怎么保证数据处理的唯一一次 * */ val env: StreamExecutiOnEnvironment= StreamExecutionEnvironment.getExecutionEnvironment /** * 开启checkpoint * */ // 每 1000ms 开始一次 checkpoint env.enableCheckpointing(20000) // 高级选项： // 设置模式为精确一次 (这是默认值) env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE) // 确认 checkpoints 之间的时间会进行 500 ms env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500) // Checkpoint 必须在一分钟内完成，否则就会被抛弃 env.getCheckpointConfig.setCheckpointTimeout(60000) // 允许两个连续的 checkpoint 错误 env.getCheckpointConfig.setTolerableCheckpointFailureNumber(2) // 同一时间只允许一个 checkpoint 进行 env.getCheckpointConfig.setMaxConcurrentCheckpoints(1) // 使用 externalized checkpoints，这样 checkpoint 在作业取消后仍就会被保留 //RETAIN_ON_CANCELLATION: 当任务取消时保留checkpoint env.getCheckpointConfig.setExternalizedCheckpointCleanup( ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION) //需要设置flink checkpoint保存的位置 env.setStateBackend(new HashMapStateBackend()) //将状态保存到hdfs中 env.getCheckpointConfig.setCheckpointStorage("hdfs://master:9000/flink/checkpoint") /** * 消费kafka中的数据 * */ val source: KafkaSource[String] = KafkaSource.builder[String] .setBootstrapServers("master:9092,node1:9092,node2:9092") .setTopics("words") .setGroupId("Demo16ExactlyOnce") .setStartingOffsets(OffsetsInitializer.earliest) //只在第一次启动的时候生效，如果开启了checkpoint,任务重启之后会按照checkpoint中保证的偏移量消费数据 .setValueOnlyDeserializer(new SimpleStringSchema()) .build val kafkaSource: DataStream[String] = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source") val wordsDS: DataStream[String] = kafkaSource.flatMap(_.split(",")) val kvDS: DataStream[(String, Int)] = wordsDS.map((_, 1)) val keyByDS: KeyedStream[(String, Int), String] = kvDS.keyBy(_._1) val countDS: DataStream[(String, Int)] = keyByDS.sum(1) countDS.print() env.execute("Demo16ExactlyOnce") } }

4. 从kafka中读取数据，然后再存到kafka中

重点
DeliveryGuarantee.AT_LEAST_ONCE：至少异常，会有重复数据
DeliveryGuarantee.EXACTLY_ONCE：唯一一次

读取数据的时候.需要指定：
--isolation-level read_committed : 只读已提交的数据

package com.wt.flink.core import org.apache.flink.api.common.eventtime.WatermarkStrategy import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.connector.base.DeliveryGuarantee import org.apache.flink.connector.kafka.sink.{KafkaRecordSerializationSchema, KafkaSink} import org.apache.flink.connector.kafka.source.KafkaSource import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer import org.apache.flink.runtime.state.hashmap.HashMapStateBackend import org.apache.flink.streaming.api.CheckpointingMode import org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanup import org.apache.flink.streaming.api.scala._ import java.util.Properties object Demo17ExactlyOnce { def main(args: Array[String]): Unit = { val env: StreamExecutiOnEnvironment= StreamExecutionEnvironment.getExecutionEnvironment //开启checkpoint // 每 1000ms 开始一次 checkpoint env.enableCheckpointing(20000) // 高级选项： // 设置模式为精确一次 (这是默认值) env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE) // 确认 checkpoints 之间的时间会进行 500 ms env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500) // Checkpoint 必须在一分钟内完成，否则就会被抛弃 env.getCheckpointConfig.setCheckpointTimeout(60000) // 允许两个连续的 checkpoint 错误 env.getCheckpointConfig.setTolerableCheckpointFailureNumber(2) // 同一时间只允许一个 checkpoint 进行 env.getCheckpointConfig.setMaxConcurrentCheckpoints(1) // 使用 externalized checkpoints，这样 checkpoint 在作业取消后仍就会被保留 //RETAIN_ON_CANCELLATION: 当任务取消时保留checkpoint env.getCheckpointConfig.setExternalizedCheckpointCleanup( ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION) /** * 需要设置flink checkpoint保存状态的位置 * */ env.setStateBackend(new HashMapStateBackend()) //将状态保存到hdfs中 env.getCheckpointConfig.setCheckpointStorage("hdfs://master:9000/flink/checkpoint") val source: KafkaSource[String] = KafkaSource.builder[String] .setBootstrapServers("master:9092,node1:9092,node2:9092") .setTopics("source") .setGroupId("Demo16ExactlyOnce") .setStartingOffsets(OffsetsInitializer.earliest) //只在第一次启动的时候生效，如果开启了checkpoint,任务重启之后会按照checkpoint中保证的偏移量消费数据 .setValueOnlyDeserializer(new SimpleStringSchema()) .build val kafkaSource: DataStream[String] = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source") //过滤空数据 val filterDS: DataStream[String] = kafkaSource.filter(_.nonEmpty) /** * DeliveryGuarantee.AT_LEAST_ONCE：至少异常，会有重复数据 * DeliveryGuarantee.EXACTLY_ONCE：唯一一次 * */ //将清洗之后的数据保存到kafka中 val properties = new Properties() //设置事务的超时时间，要比15分钟小 properties.setProperty("transaction.timeout.ms", 10 * 60 * 1000 + "") val kafkaSink: KafkaSink[String] = KafkaSink .builder[String]() .setBootstrapServers("master:9092,node1:9092,node2:9092") //broker地址 .setKafkaProducerConfig(properties) //设置额外的参数 .setRecordSerializer( KafkaRecordSerializationSchema .builder[String]() .setTopic("sink") //topic .setValueSerializationSchema(new SimpleStringSchema()) .build()) .setDeliverGuarantee(DeliveryGuarantee.EXACTLY_ONCE) .build() filterDS.sinkTo(kafkaSink) /** * 通过命令好消费sink数据 * --isolation-level read_committed : 只读已提交的数据 * kafka-console-consumer.sh --bootstrap-server master:9092,node1:9092,node2:9092 --isolation-level read_committed --from-beginning --topic sink * */ env.execute() } }

推荐阅读

queue
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
api
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
mysql
Flink（三）IDEA开发Flink环境搭建与测试

一.IDEA开发环境1.pom文件设置1.8 ... [详细]

蜡笔小新 2023-10-14 15:13:26
api
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
cache
基于时间序列的异常检测系统的实现思路之一

技术方案：Spark、kafka、opentsdb、Yahoo的egads模型静态训练：采用两种算法进行模型的训练：指数移动平均和HotWinters，模型一天训练一次，即每天0点开始训练， ... [详细]

蜡笔小新 2023-10-13 12:23:40
cache
storm详解

1.构建拓扑代码packagedemo;importbacktype.storm.topology.TopologyBuilder;importbacktype.storm.tu ... [详细]

蜡笔小新 2023-10-13 07:40:14
上传
零入门kubernetes网络实战15＞基于golang编程实现给ns网络命名空间添加额外的网卡

《零入门kubernetes网络实战》视频专栏地址https:www.ixigua.com7193641905282875942本篇文章视频地址(稍后上传)本篇文章主要是想通过g ... [详细]

蜡笔小新 2024-09-27 16:47:20
正则
Go 中的 init 函数

Go 中的 init 函数 ... [详细]

蜡笔小新 2024-09-27 15:01:41
spring
开发笔记:Spring执行ApplicationEvent事件顺序ServletWebServerInitializedEvent

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Spring执行ApplicationEvent事件顺序ServletWebServerInitializedEvent相关的知识，希望对你有一 ... [详细]

蜡笔小新 2024-09-27 13:36:27
spring
开发笔记:在单独的JVM上执行新的JavaFX应用程序

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在单独的JVM上执行新的JavaFX应用程序相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-27 08:36:44
api
springboot系列（二）创建springboot工程

https:www.cnblogs.commagicalSamp7171716.html简介SpringBoot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spri ... [详细]

蜡笔小新 2024-09-27 04:29:57
api
如何对三重嵌套循环进行矢量化？ - How to vectorize triple nested loops?

IvedonesearchingsimilarproblemsandIhaveavagueideaaboutwhatshouldIdo:tovectorizeev ... [详细]

蜡笔小新 2024-09-26 19:03:41
api
【go密码学】对称加密算法

对称加密对称加密算法是相对于非对称加密算法而言，两者的区别在于，对称加密和加密和解密时使用相同的秘钥，而非对称加密在加密和解密时使用不同的秘钥（公钥和私钥）。常见的对称加密算法：D ... [详细]

蜡笔小新 2024-09-26 17:45:06
php
JavaBean和Map 转换用反射方法实现

由于JavaBean（实体类）结构与Map类似，我们可以把JavaBean与Map进行转换 ... [详细]

蜡笔小新 2024-09-26 16:42:58
php
Android自定义View—带有动画的Dialog

MainActivity如下:packagecc.testview1;importandroid.os.Bundle;importandroid.app.Activity ... [详细]

蜡笔小新 2024-09-26 15:14:44

手机用户2602901335

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章