directDstream是什么

作者：mzyzzyk | 来源：互联网 | 2023-09-11 14:48

这篇文章主要为大家展示了“directDstream是什么”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“dire

这篇文章主要为大家展示了“direct Dstream是什么”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“direct Dstream是什么”这篇文章吧。

前言

前面，有分享过基于receiver的，实际上，看到receiver based Dstream大家就对阅读提不起兴趣了，实际上这是错误的，基于receiver的才是spark streaming根本，虽然direct stream才更合适。但是，我们从基于receiver可以学到很多内容，最重要的spark streaming实现原理，数据本地性等。

direct dstream运行架构图

direct Dstream是什么

对比

对比receiver based的Dstream和direct Dstream

a 无需启动receiver，减少不必要的cpu占用

b 减少了receiver接收数据，写入blockmanager，然后运行时再通过blockid，网络传输，磁盘读区，来获取数据这个过程。提升了效率。

c 无需wal，进一步减少磁盘读写。

d 可以通过手动维护offset来实现精确的一次消费。

e Dstream中生成的RDD，并不是blockrdd，而是kafkardd，kafkardd是和kafka分区一一对应的，更便于我们把控并行度。

f 数据本地性的问题，导致receiver存在的机器会运行过多的任务，会导致有些executor空闲。

而kafkardd，在compute函数里，会使用simpleconsumer，根据指定的topic，分区，offset范围，去kafka读取数据。010版本以后，又存在假如kafka和spark运行于同一集群，会有数据本性的概念。

数据本地性

spark streaming与kafka 082结合生成的rdd，数据本地性计算方式如下：

override def getPreferredLocations(thePart: Partition): Seq[String] = {
  val part = thePart.asInstanceOf[KafkaRDDPartition]
  // TODO is additional hostname resolution necessary here
  Seq(part.host)
}

spark streaming 与kafka 010结合生成的rdd，数据本地性计算方式如下：

override def getPreferredLocations(thePart: Partition): Seq[String] = {
  // The intention is best-effort consistent executor for a given topicpartition,
  // so that caching consumers can be effective.
  // TODO what about hosts specified by ip vs name
  val part = thePart.asInstanceOf[KafkaRDDPartition]
  val allExecs = executors()
  val tp = part.topicPartition
  val prefHost = preferredHosts.get(tp)
  val prefExecs = if (null == prefHost) allExecs else allExecs.filter(_.host == prefHost)
  val execs = if (prefExecs.isEmpty) allExecs else prefExecs
  if (execs.isEmpty) {
    Seq.empty
  } else {
    // execs is sorted, tp.hashCode depends only on topic and partition, so consistent index
    val index = Math.floorMod(tp.hashCode, execs.length)
    val chosen = execs(index)
    Seq(chosen.toString)
  }
}

对于与kafka010结合的注意事项，实际上以前浪尖也翻译过一篇文章。

必读：Spark与kafka010整合

限速

限速，很多人使用姿势不对，详细的原理可以参看

Spark的PIDController源码赏析及backpressure详解

具体配置参数详解，可以参考：

spark.streaming.backpressure.enabled 默认是false，设置为true，就开启了背压机制。
spark.streaming.backpressure.initialRate 默认没设置，初始速率。第一次启动的时候每个receiver接受数据的最大值。
spark.streaming.receiver.maxRate 默认值没设置。每个接收器将接收数据的最大速率（每秒记录数）。实际上，每个流每秒最多将消费此数量的记录。将此配置设置为0或负数将不会对速率进行限制。
spark.streaming.kafka.maxRatePerPartition 使用新Kafka direct API时从每个Kafka分区读取数据的最大速率（每秒记录数）。

以上是“direct Dstream是什么”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程笔记行业资讯频道！

推荐阅读

sum
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
sum
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
c语言
Android 开发技巧：动态修改 strings.xml 文件中的字符串值

本文介绍了一种在 Android 开发中动态修改 strings.xml 文件中字符串值的有效方法。通过使用占位符，开发者可以在运行时根据需要填充具体的值，从而提高应用的灵活性和可维护性。 ... [详细]

蜡笔小新 2024-11-24 11:51:17
process
C# 实现服务账户密码重置功能

本文详细介绍了如何使用C#实现不同类型的系统服务账户（如Windows服务、计划任务和IIS应用池）的密码重置方法。 ... [详细]

蜡笔小新 2024-11-22 21:55:10
sum
Java程序设计复习题

1、编写一个Java程序在屏幕上输出“你好！”。programmenameHelloworld.javapublicclassHelloworld{publicst ... [详细]

蜡笔小新 2024-11-22 20:05:03
web
如何从Ajax加载的网页中提取数据

近期尝试从www.hub.sciverse.com网站通过编程手段获取数据时遇到问题，起初尝试使用WebBrowser控件进行数据抓取，但发现使用GET方法翻页时，返回的HTML代码始终相同。进一步探究后了解到，该网站的数据是通过Ajax异步加载的，可通过HTTP查看详细的JSON响应。 ... [详细]

蜡笔小新 2024-11-21 10:36:30
object
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
list
Android 开发框架整合：MVP + Retrofit + Dagger2 + RxAndroid 配置指南

本文将详细介绍如何配置并整合MVP架构、Retrofit网络请求库、Dagger2依赖注入框架以及RxAndroid响应式编程库，构建高效、模块化的Android应用。 ... [详细]

蜡笔小新 2024-11-24 20:16:02
list
Java高级工程师学习路径及面试准备指南

本文基于一位朋友的PDF面试经验整理，涵盖了Java高级工程师所需掌握的核心知识点，包括数据结构与算法、计算机网络、数据库、操作系统等多个方面，并提供了详细的参考资料和学习建议。 ... [详细]

蜡笔小新 2024-11-24 10:12:21
list
将datatable导出为excel的三种方式（转）

一、使用Microsoft.Office.Interop.Excel.DLL需要安装Office代码如下：2publicstaticboolExportExcel(S ... [详细]

蜡笔小新 2024-11-23 16:37:33
byte
服务器虚拟化存储设计,完美规划储存与资源，部署高性能虚拟化桌面

规划部署虚拟桌面环境前，必须先估算目前所使用实体桌面环境的工作负载与IOPS性能，并慎选储存设备。唯有谨慎估算贴近实际的IOPS性能，才能 ... [详细]

蜡笔小新 2024-11-22 19:12:09
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
web
Spark中使用map或flatMap将DataSet[A]转换为DataSet[B]时Schema变为Binary的问题及解决方案

本文探讨了在使用Spark的map或flatMap算子将一个数据集转换为另一个数据集时，遇到的Schema变为Binary的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-12 08:06:20
list
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42

mzyzzyk

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章