Spark弹性分布式数据集详解

作者：郁雯佩菱2 | 来源：互联网 | 2024-11-14 15:44

本文详细介绍了Spark中的弹性分布式数据集（RDD）及其常见的操作方法，包括union、intersection、cartesian、subtract、join、cogroup等转换操作，以及count、collect、reduce、take、foreach、first、saveAsTextFile等行动操作。

弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）是 Spark 中的核心抽象，用于处理大规模数据集。RDD 是一个不可变的、分区的集合，可以在多个节点上并行处理。以下是几种常见的 RDD 操作示例：

union： 创建一个包含源 RDD 和参数所有元素的新 RDD。

Scala 示例：

val rdd1 = sc.parallelize(List('A', 'B'))
val rdd2 = sc.parallelize(List('B', 'C'))
rdd1.union(rdd2).collect()

结果：

Array[Char] = Array(A, B, B, C)

intersection： 创建一个只包含源 RDD 和参数公共元素的新 RDD。

Scala 示例：

rdd1.intersection(rdd2).collect()

结果：

Array[Char] = Array(B)

cartesian： 创建一个包含源 RDD 和参数所有元素的笛卡尔积的新 RDD。

Scala 示例：

rdd1.cartesian(rdd2).collect()

结果：

Array[(Char, Char)] = Array((A, B), (A, C), (B, B), (B, C))

subtract： 创建一个通过删除源 RDD 中与参数相同的数据元素的新 RDD。

Scala 示例：

rdd1.subtract(rdd2).collect()

结果：

Array[Char] = Array(A)

join： 当在 (K, V) 和 (K, W) 上调用时，此操作创建一个新的 RDD (K, (V, W))。

Scala 示例：

val persOnFruit= sc.parallelize(Seq(("Andy", "Apple"), ("Bob", "Banana"), ("Charlie", "Cherry"), ("Andy","Apricot")))
val persOnSE= sc.parallelize(Seq(("Andy", "Google"), ("Bob", "Bing"), ("Charlie", "Yahoo"), ("Bob","AltaVista")))
personFruit.join(personSE).collect()

结果：

Array[(String, (String, String))] = Array((Andy,(Apple,Google)), (Andy,(Apricot,Google)), (Charlie,(Cherry,Yahoo)), (Bob,(Banana,Bing)), (Bob,(Banana,AltaVista)))

cogroup： 将 (K, V) 转换为 (K, Iterable[V])。

Scala 示例：

personFruit.cogroup(personSE).collect()

结果：

Array[(String, (Iterable[String], Iterable[String]))] = Array((Andy, (ArrayBuffer(Apple, Apricot), ArrayBuffer(Google))), (Charlie, (ArrayBuffer(Cherry), ArrayBuffer(Yahoo))), (Bob, (ArrayBuffer(Banana), ArrayBuffer(Bing, AltaVista))))

count： 获取 RDD 中的数据元素数。

Scala 示例：

val rdd = sc.parallelize(List('A', 'B', 'C'))
rdd.count()

结果：

LOng= 3

collect： 将 RDD 中的所有数据元素作为数组返回。

Scala 示例：

rdd.collect()

结果：

Array[Char] = Array(A, B, C)

reduce： 使用指定函数聚合 RDD 中的数据元素，该函数需要两个参数并返回一个值。

Scala 示例：

val rdd = sc.parallelize(List(1, 2, 3, 4))
rdd.reduce(_ + _)

结果：

Int = 10

take： 获取 RDD 中前 n 个数据元素。

Scala 示例：

rdd.take(2)

结果：

Array[Int] = Array(1, 2)

foreach： 为 RDD 中的每个数据元素执行指定函数。通常用于更新累加器或与外部系统交互。

Scala 示例：

rdd.foreach(x => println(s"$x * 10 = ${x * 10}"))

结果：

1 * 10 = 10 4 * 10 = 40 3 * 10 = 30 2 * 10 = 20

first： 检索 RDD 中的第一个数据元素。

Scala 示例：

rdd.first()

结果：

Int = 1

saveAsTextFile： 将 RDD 的内容写入文本文件或一组文本文件到本地文件系统或 HDFS。

Scala 示例：

val hamlet = sc.textFile("/users/akuntamukkala/temp/gutenburg.txt")
hamlet.filter(_.contains("Shakespeare")).saveAsTextFile("/users/akuntamukkala/temp/filtered")

结果：

akuntamukkala@localhost ~/temp/filtered $ ls _SUCCESS part-00000 part-00001

更多详细信息请参阅：Spark 官方文档

推荐阅读

string
深入解析 Android IPC 中的 Messenger 机制

本文详细介绍了 Android 中基于消息传递的进程间通信（IPC）机制——Messenger。通过实例和源码分析，帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]

蜡笔小新 2024-12-21 11:11:40
include
深入解析Spring启动过程

本文详细介绍了Spring框架的启动流程，帮助开发者理解其内部机制。通过具体示例和代码片段，解释了Bean定义、工厂类、读取器以及条件评估等关键概念，使读者能够更全面地掌握Spring的初始化过程。 ... [详细]

蜡笔小新 2024-12-21 17:33:44
include
主调|大侠_重温C++

主调|大侠_重温C++ ... [详细]

蜡笔小新 2024-12-20 20:43:56
random
Java - 在ArrayList中插入多个不同数组的方法

本文探讨了在Java中如何正确地将多个不同的数组插入到ArrayList中，避免所有数组在插入后变得相同的问题。我们将分析代码中的问题，并提供解决方案。 ... [详细]

蜡笔小新 2024-12-22 11:35:44
string
RoboGuice 注解注入：处理 Intent Extra 数据

在 Android 开发中，通过 Intent 启动 Activity 或 Service 时，可以使用 putExtra 方法传递数据。接收方可以通过 getIntent().getExtras() 获取这些数据。本文将介绍如何使用 RoboGuice 框架简化这一过程，特别是 @InjectExtra 注解的使用。 ... [详细]

蜡笔小新 2024-12-22 08:38:48
string
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
string
深入解析SpringMVC核心组件：DispatcherServlet的工作原理

本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制，旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题：1. HTTP请求如何映射到Controller；2. Controller是如何被执行的。 ... [详细]

蜡笔小新 2024-12-21 18:50:52
string
深入解析ArrayList与LinkedList的差异

本文详细对比了Java中ArrayList和LinkedList两种常用集合类的特性、性能及适用场景，通过代码示例进行测试，并结合实际应用场景分析其优缺点。 ... [详细]

蜡笔小新 2024-12-21 14:10:46
string
由二叉树到贪心算法

二叉树很重要树是数据结构中的重中之重，尤其以各类二叉树为学习的难点。单就面试而言，在 ... [详细]

蜡笔小新 2024-12-21 13:13:13
string
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
python
Python 中将数组元素转换为整数的方法

在处理数值数据时，有时需要将浮点数数组中的元素转换为整数。NumPy 提供了多种方法来实现这一目标，其中 np.trunc() 函数可以方便地对数组进行取整操作。 ... [详细]

蜡笔小新 2024-12-20 19:33:31
string
ListView简单使用

先上效果：主要实现了Listview的绑定和点击事件。项目资源结构如下：先创建一个动物类，用来装载数据：Animal类如下：packagecom.example.simplelis ... [详细]

蜡笔小新 2024-12-20 18:17:25
case
深入解析 Android 值动画实现细节

本文详细介绍了如何在 Android 中使用值动画（ValueAnimator）来动态调整 ImageView 的高度，并探讨了相关的关键属性和方法，包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]

蜡笔小新 2024-12-20 17:58:54
random
Java 中的不可变集合与同步集合详解

本文将详细探讨 Java 中提供的不可变集合（如 `Collections.unmodifiableXXX`）和同步集合（如 `Collections.synchronizedXXX`）的实现原理及使用方法，帮助开发者更好地理解和应用这些工具。 ... [详细]

蜡笔小新 2024-12-20 15:34:31
version
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45

郁雯佩菱2

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章