当前位置: 开发笔记 > 编程语言 > 正文

SparkRDD学习笔记

作者：卓菘碧625 | 来源：互联网 | 2023-09-13 18:59

一、学习SparkRDDRDD是Spark中的核心数据模型，一个RDD代表着一个被分区(partition)的只读数据集。RDD的生成只有两种途径：一种是来自于内存集合或外部存储系

一、学习Spark RDD

RDD是Spark中的核心数据模型，一个RDD代表着一个被分区(partition)的只读数据集。

RDD的生成只有两种途径：

一种是来自于内存集合或外部存储系统；

另一种是通过转换操作来自于其他RDD；

一般需要了解RDD的以下五个接口：

partition分区，一个RDD会有一个或者多个分区

dependencies()RDD的依赖关系

preferredLocations(p)对于每个分区而言，返回数据本地化计算的节点

compute(p,context)对于分区而言，进行迭代计算

partitioner()RDD的分区函数

1.1 RDD分区(partitions)

一个RDD包含一个或多个分区，每个分区都有分区属性，分区的多少决定了对RDD进行并行计算的并行度。

在生成RDD时候可以指定分区数,如果不指定分区数，则采用默认值，系统默认的分区数，是这个程序所分配到的资源的CPU核数。

可以使用RDD的成员变量partitions返回RDD对应的分区数组：

scala> var file = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;)

file: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[5] at textFile at :21

scala> file.partitions

res14: Array[org.apache.spark.Partition] = Array(org.apache.spark.rdd.HadoopPartition@735, org.apache.spark.rdd.HadoopPartition@736)

scala> file.partitions.size

res15: Int = 2 //默认两个分区

//可以指定RDD的分区数

scala> var file = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;,4)

file: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at textFile at :21

scala> file.partitions

res16: Array[org.apache.spark.Partition] = Array(org.apache.spark.rdd.HadoopPartition@787, org.apache.spark.rdd.HadoopPartition@788, org.apache.spark.rdd.HadoopPartition@789, org.apache.spark.rdd.HadoopPartition@78a)

scala> file.partitions.size

res17: Int = 4

1.2 RDD依赖关系(dependencies)

由于RDD即可以由外部存储而来，也可以从另一个RDD转换而来，因此，一个RDD会存在一个或多个父的RDD，这里面也就存在依赖关系，

窄依赖：

每一个父RDD的分区最多只被子RDD的一个分区所使用，如图所示：

《Spark RDD学习笔记》

宽依赖

多个子RDD的分区会依赖同一个父RDD的分区，如图所示：

《Spark RDD学习笔记》

以下代码可以查看RDD的依赖信息：

scala> var file = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;)

file: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[9] at textFile at :21

scala> file.dependencies.size

res20: Int = 1 //返回RDD的依赖数量

scala> file.dependencies(0)

res19:

org.apache.spark.Dependency[_] = org.apache.spark.OneToOneDependency@33c5abd0

//返回RDD file的第一个依赖

scala> file.dependencies(1)

java.lang.IndexOutOfBoundsException: 1

//因为file只有一个依赖，想获取第二个依赖时候，报了数组越界

需要大数据学习资料和交流学习的同学可以加大数据学习群：724693112 有免费资料分享和一群学习大数据的小伙伴一起努力

再看一个存在多个父依赖的例子：

scala> var rdd1 = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;)

rdd1: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at textFile at :21

scala> var rdd2 = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;)

rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[13] at textFile at :21

scala> var rdd3 = rdd1.union(rdd2)

rdd3: org.apache.spark.rdd.RDD[String] = UnionRDD[14] at union at :25

scala> rdd3.dependencies.size

res24: Int = 2 // rdd3依赖rdd1和rdd2两个RDD

//分别打印出rdd3的两个父rdd,即 rdd1和rdd2的内容

scala> rdd3.dependencies(0).rdd.collect

res29: Array[_] = Array(hello world, hello spark, hello hive, hi spark)

scala> rdd3.dependencies(1).rdd.collect

res30: Array[_] = Array(hello world, hello spark, hello hive, hi spark)

1.3 RDD优先位置(preferredLocations)

RDD的优先位置，返回的是此RDD的每个partition所存储的位置，这个位置和Spark的调度有关（任务本地化），Spark会根据这个位置信息，尽可能的将任务分配到数据块所存储的位置，以从Hadoop中读取数据生成RDD为例，preferredLocations返回每一个数据块所在的机器名或者IP地址，如果每一个数据块是多份存储的（HDFS副本数），那么就会返回多个机器地址。

看以下代码：

scala> var file = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;)

file: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[16] at textFile at :21

//这里的file为MappedRDD

scala> var hadoopRDD = file.dependencies(0).rdd

hadoopRDD: org.apache.spark.rdd.RDD[_] = /tmp/lxw1234/1.txt HadoopRDD[15] at textFile at :21 //这里获取file的父RDD，即hdfs文件/tmp/lxw1234/1.txt对应的HadoopRDD

scala> hadoopRDD.partitions.size

res31: Int = 2 //hadoopRDD默认有两个分区

//下面分别获取两个分区的位置信息

scala> hadoopRDD.preferredLocations(hadoopRDD.partitions(0))

res32: Seq[String] = WrappedArray(slave007.lxw1234.com, slave004.lxw1234.com)

scala> hadoopRDD.preferredLocations(hadoopRDD.partitions(1))

res33: Seq[String] = WrappedArray(slave007. lxw1234.com, slave004.lxw1234.com)

由于HDFS副本数设置为2，因此每个分区的位置信息中包含了所有副本（2个）的位置信息，这样Spark可以调度时候，根据任何一个副本所处的位置进行本地化任务调度。

1.4 RDD分区计算(compute)

基于RDD的每一个分区，执行compute操作。

对于HadoopRDD来说，compute中就是从HDFS读取分区中数据块信息。

对于JdbcRDD来说，就是连接数据库，执行查询，读取每一条数据。

1.5 RDD分区函数(partitioner)

目前Spark中实现了两种类型的分区函数，HashPartitioner(哈希分区)和RangePartitioner(区域分区)。

partitioner只存在于类型的RDD中，非类型的RDD的partitioner值为None.

partitioner函数既决定了RDD本身的分区数量，也可作为其父RDD Shuffle输出中每个分区进行数据切割的依据。

scala> var a = sc.textFile(&＃8220;/tmp/lxw1234/1.txt&＃8221;).flatMap(line => line.split(&＃8220;\\s+&＃8221;))

a: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at flatMap at :21

scala> a.partitioner

res15: Option[org.apache.spark.Partitioner] = None // RDD a为非类型

scala> var b = a.map(l => (l,1)).reduceByKey((a,b) => a + b)

b: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[21] at reduceByKey at :30

scala> b.partitioner

res16: Option[org.apache.spark.Partitioner] = Some(org.apache.spark.HashPartitioner@2)

//RDD b为类型，采用的是默认的partitioner- HashPartitioner

推荐阅读

int
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
int
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
int
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
int
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
int
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
int
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
int
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
int
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
int
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
int
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
int
LintCode 1218. 计算补数的 JavaScript 算法

本题要求给定一个正整数，计算其补数。补数是指将该数字的二进制表示逐位取反，然后转换回十进制得到的新数。 ... [详细]

蜡笔小新 2024-11-13 10:59:10
int
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
int
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
int
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
int
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52

卓菘碧625

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章