热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark弹性分布式数据集详解

本文详细介绍了Spark中的弹性分布式数据集(RDD)及其常见的操作方法,包括union、intersection、cartesian、subtract、join、cogroup等转换操作,以及count、collect、reduce、take、foreach、first、saveAsTextFile等行动操作。

弹性分布式数据集(Resilient Distributed Dataset,简称 RDD)是 Spark 中的核心抽象,用于处理大规模数据集。RDD 是一个不可变的、分区的集合,可以在多个节点上并行处理。以下是几种常见的 RDD 操作示例:

union: 创建一个包含源 RDD 和参数所有元素的新 RDD。

Scala 示例:

val rdd1 = sc.parallelize(List('A', 'B'))
val rdd2 = sc.parallelize(List('B', 'C'))
rdd1.union(rdd2).collect()

结果:

Array[Char] = Array(A, B, B, C)

intersection: 创建一个只包含源 RDD 和参数公共元素的新 RDD。

Scala 示例:

rdd1.intersection(rdd2).collect()

结果:

Array[Char] = Array(B)

cartesian: 创建一个包含源 RDD 和参数所有元素的笛卡尔积的新 RDD。

Scala 示例:

rdd1.cartesian(rdd2).collect()

结果:

Array[(Char, Char)] = Array((A, B), (A, C), (B, B), (B, C))

subtract: 创建一个通过删除源 RDD 中与参数相同的数据元素的新 RDD。

Scala 示例:

rdd1.subtract(rdd2).collect()

结果:

Array[Char] = Array(A)

join: 当在 (K, V) 和 (K, W) 上调用时,此操作创建一个新的 RDD (K, (V, W))。

Scala 示例:

val persOnFruit= sc.parallelize(Seq(("Andy", "Apple"), ("Bob", "Banana"), ("Charlie", "Cherry"), ("Andy","Apricot")))
val persOnSE= sc.parallelize(Seq(("Andy", "Google"), ("Bob", "Bing"), ("Charlie", "Yahoo"), ("Bob","AltaVista")))
personFruit.join(personSE).collect()

结果:

Array[(String, (String, String))] = Array((Andy,(Apple,Google)), (Andy,(Apricot,Google)), (Charlie,(Cherry,Yahoo)), (Bob,(Banana,Bing)), (Bob,(Banana,AltaVista)))

cogroup: 将 (K, V) 转换为 (K, Iterable[V])。

Scala 示例:

personFruit.cogroup(personSE).collect()

结果:

Array[(String, (Iterable[String], Iterable[String]))] = Array((Andy, (ArrayBuffer(Apple, Apricot), ArrayBuffer(Google))), (Charlie, (ArrayBuffer(Cherry), ArrayBuffer(Yahoo))), (Bob, (ArrayBuffer(Banana), ArrayBuffer(Bing, AltaVista))))

count: 获取 RDD 中的数据元素数。

Scala 示例:

val rdd = sc.parallelize(List('A', 'B', 'C'))
rdd.count()

结果:

LOng= 3

collect: 将 RDD 中的所有数据元素作为数组返回。

Scala 示例:

rdd.collect()

结果:

Array[Char] = Array(A, B, C)

reduce: 使用指定函数聚合 RDD 中的数据元素,该函数需要两个参数并返回一个值。

Scala 示例:

val rdd = sc.parallelize(List(1, 2, 3, 4))
rdd.reduce(_ + _)

结果:

Int = 10

take: 获取 RDD 中前 n 个数据元素。

Scala 示例:

rdd.take(2)

结果:

Array[Int] = Array(1, 2)

foreach: 为 RDD 中的每个数据元素执行指定函数。通常用于更新累加器或与外部系统交互。

Scala 示例:

rdd.foreach(x => println(s"$x * 10 = ${x * 10}"))

结果:

1 * 10 = 10 4 * 10 = 40 3 * 10 = 30 2 * 10 = 20

first: 检索 RDD 中的第一个数据元素。

Scala 示例:

rdd.first()

结果:

Int = 1

saveAsTextFile: 将 RDD 的内容写入文本文件或一组文本文件到本地文件系统或 HDFS。

Scala 示例:

val hamlet = sc.textFile("/users/akuntamukkala/temp/gutenburg.txt")
hamlet.filter(_.contains("Shakespeare")).saveAsTextFile("/users/akuntamukkala/temp/filtered")

结果:

akuntamukkala@localhost ~/temp/filtered $ ls _SUCCESS part-00000 part-00001

更多详细信息请参阅:Spark 官方文档


推荐阅读
  • 深入解析 Android IPC 中的 Messenger 机制
    本文详细介绍了 Android 中基于消息传递的进程间通信(IPC)机制——Messenger。通过实例和源码分析,帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]
  • 深入解析Spring启动过程
    本文详细介绍了Spring框架的启动流程,帮助开发者理解其内部机制。通过具体示例和代码片段,解释了Bean定义、工厂类、读取器以及条件评估等关键概念,使读者能够更全面地掌握Spring的初始化过程。 ... [详细]
  • 主调|大侠_重温C++ ... [详细]
  • 本文探讨了在Java中如何正确地将多个不同的数组插入到ArrayList中,避免所有数组在插入后变得相同的问题。我们将分析代码中的问题,并提供解决方案。 ... [详细]
  • 在 Android 开发中,通过 Intent 启动 Activity 或 Service 时,可以使用 putExtra 方法传递数据。接收方可以通过 getIntent().getExtras() 获取这些数据。本文将介绍如何使用 RoboGuice 框架简化这一过程,特别是 @InjectExtra 注解的使用。 ... [详细]
  • 深入解析Java虚拟机(JVM)架构与原理
    本文旨在为读者提供对Java虚拟机(JVM)的全面理解,涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制,帮助开发者更好地掌握Java编程的核心技术。 ... [详细]
  • 深入解析SpringMVC核心组件:DispatcherServlet的工作原理
    本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制,旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题:1. HTTP请求如何映射到Controller;2. Controller是如何被执行的。 ... [详细]
  • 深入解析ArrayList与LinkedList的差异
    本文详细对比了Java中ArrayList和LinkedList两种常用集合类的特性、性能及适用场景,通过代码示例进行测试,并结合实际应用场景分析其优缺点。 ... [详细]
  • 由二叉树到贪心算法
    二叉树很重要树是数据结构中的重中之重,尤其以各类二叉树为学习的难点。单就面试而言,在 ... [详细]
  • 并发编程 12—— 任务取消与关闭 之 shutdownNow 的局限性
    Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]
  • 在处理数值数据时,有时需要将浮点数数组中的元素转换为整数。NumPy 提供了多种方法来实现这一目标,其中 np.trunc() 函数可以方便地对数组进行取整操作。 ... [详细]
  • ListView简单使用
    先上效果:主要实现了Listview的绑定和点击事件。项目资源结构如下:先创建一个动物类,用来装载数据:Animal类如下:packagecom.example.simplelis ... [详细]
  • 本文详细介绍了如何在 Android 中使用值动画(ValueAnimator)来动态调整 ImageView 的高度,并探讨了相关的关键属性和方法,包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]
  • 本文将详细探讨 Java 中提供的不可变集合(如 `Collections.unmodifiableXXX`)和同步集合(如 `Collections.synchronizedXXX`)的实现原理及使用方法,帮助开发者更好地理解和应用这些工具。 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
author-avatar
郁雯佩菱2
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有