sparkstreamingkafka之createDirectStream模式

作者：快乐碧云轩在江湖 | 来源：互联网 | 2023-09-23 12:54

完整工程用例最近一直在用directstream方式消费kafka中的数据，特此总结，整个代码工程分为三个部分一.完整工程代码如下(某些地方特意做了说明,这个代码的部分函数直接用的

完整工程用例

最近一直在用directstream方式消费kafka中的数据，特此总结，整个代码工程分为三个部分
一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming-kafka-0.8_2.11)

package directStream import kafka.message.MessageAndMetadata; import kafka.serializer.StringDecoder import kafka.common.TopicAndPartition import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.serialization.StringDeserializer import org.apache.kafka.common.TopicPartition //import java.util._ import org.apache.spark.{SparkContext,SparkConf,TaskContext, SparkException} import org.apache.spark.SparkContext._ import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds import org.apache.spark.streaming.dstream._ import org.apache.spark.streaming.kafka.{KafkaUtils,HasOffsetRanges, OffsetRange,KafkaCluster} import com.typesafe.config.ConfigFactory import scalikejdbc._ import scala.collection.JavaConverters._ object SetupJdbc { def apply(driver: String, host: String, user: String, password: String): Unit = { Class.forName(driver) ConnectionPool.singleton(host, user, password) } } object SimpleApp{ def main(args: Array[String]): Unit = { val cOnf= ConfigFactory.load // 加载工程resources目录下application.conf文件，该文件中配置了databases信息，以及topic及group消息 val kafkaParams = Map[String, String]( "metadata.broker.list" -> conf.getString("kafka.brokers"), "group.id" -> conf.getString("kafka.group"), "auto.offset.reset" -> "smallest" ） val jdbcDriver = conf.getString("jdbc.driver") val jdbcUrl = conf.getString("jdbc.url") val jdbcUser = conf.getString("jdbc.user") val jdbcPassword = conf.getString("jdbc.password") val topic = conf.getString("kafka.topics") val group = conf.getString("kafka.group") val ssc = setupSsc(kafkaParams, jdbcDriver, jdbcUrl, jdbcUser, jdbcPassword,topic, group)() ssc.start() ssc.awaitTermination() } def createStream(taskOffsetInfo: Map[TopicAndPartition, Long], kafkaParams: Map[String, String], conf:SparkConf, ssc: StreamingContext, topics:String):InputDStream[_] = { ／/ 若taskOffsetInfo 不为空，说明这不是第一次启动该任务, database已经保存了该topic下该group的已消费的offset, 则对比kafka中该topic有效的offset的最小值和数据库保存的offset，去比较大作为新的offset. if(taskOffsetInfo.size != 0){ val kc = new KafkaCluster(kafkaParams) val earliestLeaderOffsets = kc.getEarliestLeaderOffsets(taskOffsetInfo.keySet) if(earliestLeaderOffsets.isLeft) throw new SparkException("get kafka partition failed:") val earliestOffSets = earliestLeaderOffsets.right.get val offsets = earliestOffSets.map(r => new TopicAndPartition(r._1.topic, r._1.partition) -> r._2.offset.toLong) val newOffsets = taskOffsetInfo.map(r => { val t = offsets(r._1) if (t > r._2) { r._1 -> t } else { r._1 -> r._2 } } ) val messageHandler = (mmd: MessageAndMetadata[String, String]) => 1L KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, Long](ssc, kafkaParams, newOffsets, messageHandler) //val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder]( } else { val topicSet = topics.split(",").toSet KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams,topicSet) } } def setupSsc( kafkaParams: Map[String, String], jdbcDriver: String, jdbcUrl: String, jdbcUser: String, jdbcPassword: String, topics:String, group:String )(): StreamingCOntext= { val cOnf= new SparkConf() .setMaster("mesos://10.142.113.239:5050") .setAppName("offset") .set("spark.worker.timeout", "500") .set("spark.cores.max", "10") .set("spark.streaming.kafka.maxRatePerPartition", "500") .set("spark.rpc.askTimeout", "600s") .set("spark.network.timeout", "600s") .set("spark.streaming.backpressure.enabled", "true") .set("spark.task.maxFailures", "1") .set("spark.speculationfalse", "false") val ssc = new StreamingContext(conf, Seconds(5)) SetupJdbc(jdbcDriver, jdbcUrl, jdbcUser, jdbcPassword) // connect to mysql // begin from the the offsets committed to the database val fromOffsets = DB.readOnly { implicit session => sql"select topic, part, offset from streaming_task where group_id=$group". map { resultSet => new TopicAndPartition(resultSet.string(1), resultSet.int(2)) -> resultSet.long(3) }.list.apply().toMap } val stream = createStream(fromOffsets, kafkaParams, conf, ssc, topics) stream.foreachRDD { rdd => if(rdd.count != 0){ // you task val t = rdd.map(record => (record, 1)) val results = t.reduceByKey {_+_}.collect // persist the offset into the database val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges DB.localTx { implicit session => offsetRanges.foreach { osr => sql"""replace into streaming_task values(${osr.topic}, ${group}, ${osr.partition}, ${osr.untilOffset})""".update.apply() if(osr.partition == 0){ println(osr.partition, osr.untilOffset) } } } } } ssc } }

二. 工程的resources文件下的有个application.conf配置文件，其配置如下

jdbc { driver = "com.mysql.jdbc.Driver" url = "jdbc:mysql://xxx.xxx.xxx.xxx:xxxx/xxxx" user = "xxxx" password = "xxxx" } kafka { topics = "xxxx" brokers = "xxxx.xxx.xxx.:xxx,xxx.xxx.xxx.xxx:9092,xxx.xxxx.xxx:xxxx" group = "xxxxxx" } jheckpointDir = "hdfs://xxx.xxx.xxx.xxx:9000/shouzhucheckpoint" batchDuratiOnMs= xxxx

三. 配置文件中可以看到，我把offset 保存在 mysql里，这里我定义了一个table 名称为streaming_task, 表的结构信息如下：

+----------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +----------+--------------+------+-----+---------+-------+ | topic | varchar(100) | NO | PRI | NULL | | | group_id | varchar(50) | NO | PRI | | | | part | int(4) | NO | PRI | 0 | | | offset | mediumtext | YES | | NULL | | +----------+--------------+------+-----+---------+-------+

部分解释如下：

一. 选用direct 的原因
官方为spark提供了两种方式来消费kafka中的数据，高阶api由kafka自己来来维护offset, 有篇blog总结的比较好

第一种是利用 Kafka 消费者高级 API 在 Spark 的工作节点上创建消费者线程，订阅 Kafka 中的消息，数据会传输到 Spark 工作节点的执行器中，但是默认配置下这种方法在 Spark Job 出错时会导致数据丢失，如果要保证数据可靠性，需要在 Spark Streaming 中开启Write Ahead Logs（WAL），也就是上文提到的 Kafka 用来保证数据可靠性和一致性的数据保存方式。可以选择让 Spark 程序把 WAL 保存在分布式文件系统（比如 HDFS）中,

第二种方式不需要建立消费者线程，使用 createDirectStream 接口直接去读取 Kafka 的 WAL，将 Kafka 分区与 RDD 分区做一对一映射，相较于第一种方法，不需再维护一份 WAL 数据，提高了性能。读取数据的偏移量由 Spark Streaming 程序通过检查点机制自身处理，避免在程序出错的情况下重现第一种方法重复读取数据的情况，消除了 Spark Streaming 与 ZooKeeper/Kafka 数据不一致的风险。保证每条消息只会被 Spark Streaming 处理一次。以下代码片通过第二种方式读取 Kafka 中的数据：

在我在使用第一种方式的时候，如果数据量太大, 往往会出现报错，了解这这两种方式的不同后，果断选用了第二种，

二. 引入KafkaCluster类的原因

引入KafkaCluster是为了在整个任务启动之前，首先获取topic的有效的最旧offset. 这跟kafka的在实际的使用场景，大公司都是按时间删除kafka上数据有关，如果任务挂的时间太久，在还未能启动任务之前，database中保存的offset已经在kafak中失效，这时候为了最大程度的减少损失，只能从该topic的最旧数据开始消费..

三. 存入database的原因

看上面的代码，估计好多人也扒过KafkaCluster的源码, 这个类里面其实有一个setConsumerOffsets这样的方法，其实在处理过一个batch的数据后，更新一下该topic下group的offset即可，但是还是在开始启动这个 job 的时候还得验证该offset否有效. 貌似这样还不用外部数据库，岂不方便？其实这样做确实挺方便，
有些场景下这样做无可厚非，但我觉得：如果处理完数据，要写到外部数据库，此时，如果能把写数据和写offset放在一个事务中（前提是这个数据库是支持事务），那么就可以即可保证严格消费一次

四. conf 中两个特殊设置设置

为了确保task不会重复执行请设置下面两个参数：

spark.task.maxFailures=1, Task重试次数为1，即不重试
spark.speculation=false 关闭推测执行, 重点说下这个参数spark.speculation这个参数表示空闲的资源节点会不会尝试执行还在运行，并且运行时间过长的Task，避免单个节点运行速度过慢导致整个任务卡在一个节点上。这个参数最好设置为true。与之相配合可以一起设置的参数有spark.speculation.×开头的参数(设置spark.speculation=true将执行事件过长的节点去掉并重新分配任务而spark.speculation.interval用来设置执行间隔)

推荐阅读

stream
Java代码保护与混淆：ProGuard详解

在Java开发中，保护代码安全是一个重要的课题。由于Java字节码容易被反编译，因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆，以及其基本原理和常见问题。 ... [详细]

蜡笔小新 2024-11-18 16:46:17
instance
使用TabActivity实现Android顶部选项卡功能

本文介绍如何通过继承TabActivity来创建Android应用中的顶部选项卡。通过简单的步骤，您可以轻松地添加多个选项卡，并实现基本的界面切换功能。 ... [详细]

蜡笔小新 2024-11-21 17:47:42
instance
Go从入门到精通系列视频之go编程语言密码学哈希算法（二）

Go从入门到精通系列视频之go编程语言密码学哈希算法（二） ... [详细]

蜡笔小新 2024-11-21 10:55:36
stream
web: _show -> _info 造轮子编程

问题场景用Java进行web开发过程当中，当遇到很多很多个字段的实体时，最苦恼的莫过于编辑字段的查看和修改界面，发现2个页面存在很多重复信息，能不能写一遍？有没有轮子用都不如自己造。解决方式笔者根据自 ... [详细]

蜡笔小新 2024-11-21 10:21:24
stream
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
stream
IO流——字符流 BufferedReader / BufferedWriter 进行文件读写

目录节点流、处理流读文件：BufferedReader的使用写文件：BufferedWriter的使用节点流处理流节点流和处理流的区别和联系字符流Buf ... [详细]

蜡笔小新 2024-11-18 14:47:25
stream
探讨Java中将图像对象转换为文件和字节数组的方法

本文详细探讨了在Java中如何将图像对象转换为文件和字节数组（Byte[]）的技术。虽然网络上存在大量相关资料，但实际操作时仍需注意细节。本文通过使用JMSL 4.0库中的图表对象作为示例，提供了一种实用的方法。 ... [详细]

蜡笔小新 2024-11-21 21:42:59
buffer
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
python
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
function
Go语言中接口型函数的应用与解析

本文深入探讨了Go语言中的接口型函数，通过实例分析其灵活性和强大功能，帮助开发者更好地理解和运用这一特性。 ... [详细]

蜡笔小新 2024-11-21 12:21:19
main
Java 实现生成指定数量的不重复随机数

本文将详细介绍如何使用Java编程语言生成指定数量的不重复随机数，包括具体的实现方法和代码示例。适合初学者和有一定基础的开发者参考。 ... [详细]

蜡笔小新 2024-11-21 12:08:06
main
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
version
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
function
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
stream
电商高并发解决方案详解

本文以京东为例，详细探讨了电商中常见的高并发解决方案，包括多级缓存和Nginx限流技术，旨在帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-18 14:59:39

快乐碧云轩在江湖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章