Spark的RDD工作机制原理以及实例详解

作者：VASTEw | 来源：互联网 | 2023-06-25 11:37

RDD工作机制RDD指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用，是S

RDD工作机制

RDD指的是一个只读的&＃xff0c;可分区的分布式数据集&＃xff0c;这个数据集的全部或部分可以缓存在内存中&＃xff0c;在多次计算间重用&＃xff0c;是Spark进行大数据处理计算的核心&＃xff0c;在设计算法的时候&＃xff0c;就是在设计RDD的操作&＃xff0c;那么下面通过WordCount实例来详细介绍RDD的工作机制。关于RDD的特性和理论请参考“Spark 入门文档”。

1、在介绍RDD工作原理之前再回顾一下WordCount的例子&＃xff1a;

第一步&＃xff1a;创建saprk的配置对象SparkConf

val conf &＃61; new SparkConf()

conf.setAppName("My First Spark App!").setMaster("local")

第二步&＃xff1a;创建SparkContext对象

val sc &＃61; new SparkContext(conf)

第三步&＃xff1a;根据具体数据来源&＃xff08;HDFS&＃xff0c;Hbase等&＃xff09;通过SparkContext来创建RDD

val lines &＃61; sc.textFile(“hdfs://{文件路径}/ helloSpark.txt”)

第四步&＃xff1a;将每行字符拆分为单个单词

val words &＃61; lines.flatMap { line &＃61;>line.split(" ") }

第五步&＃xff1a;在单词拆分的基础上对每个单词实例计数为1

val pairs &＃61; lines.map{word &＃61;> (word, 1)}

第六步&＃xff1a;在每个单词实例为1的基础之上统计每个单词出现的总次数

val wordcount &＃61; pairs.reduceByKey(_&＃43;_)

第七步&＃xff1a;输出统计结果

wordcount.foreach(wordNumberPair&＃61;> println(wordNumberPair._1 &＃43; ":" &＃43; wordNumberPair._2))

sc.stop()

2、根据上述的程序图解spark RDD中数据流动过程

补充说明&＃xff1a;第一张图主要描述的是RDD的transformation&＃xff0c;第二张图描述的是action。在第一张图中hadoopRDD的方块内的数据1&＃xff0c;数据2&＃xff0c;数据3表示把文件系统中helloSpark.txt文件的内容分到了三个工作节点上去。&＃xff08;helloSpark.txt文件内容有四行每行分别是&＃xff1a;helloSpark &＃xff1b;hello scala&＃xff1b;hello Hadoop &＃xff1b; hello flink。&＃xff09;在第一张图中所有的map操作都是在各自自己的节点上进行的计算&＃xff0c;当执行reduceBykey操作是进行了shuffle通信&＃xff0c;收集各个节点上的数据然后进行单词统计。最后一个RDD是为存储结果而准备的。在shuffleRDD中只有两个节点这个是由分区策略决定的&＃xff0c;具体需要深入学习。

推荐阅读

ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
scala
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
import
开发笔记:Spark Java API 之 CountVectorizer

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:53:30
ip
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
ip
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
ip
qt学习(六)数据库注册用户的实现方法

本文介绍了在qt学习中实现数据库注册用户的方法，包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]

蜡笔小新 2023-12-14 13:29:32
request
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
foreach
PHP实现断点续传乱序合并文件的方法和源码

本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因，文件需要分割成多个部分发送，因此无法按顺序接收。文章中提供了merge2.php的源码，通过使用shuffle函数打乱文件读取顺序，实现了乱序合并文件的功能。同时，还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]

蜡笔小新 2023-12-14 04:33:19
foreach
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
ip
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
ip
全面介绍Windows内存管理机制及C++内存分配实例（四）：内存映射文件

本文旨在全面介绍Windows内存管理机制及C++内存分配实例中的内存映射文件。通过对内存映射文件的使用场合和与虚拟内存的区别进行解析，帮助读者更好地理解操作系统的内存管理机制。同时，本文还提供了相关章节的链接，方便读者深入学习Windows内存管理及C++内存分配实例的其他内容。 ... [详细]

蜡笔小新 2023-12-10 18:30:17
ip
常用的CSS属性及用法整理

本文整理了常用的CSS属性及用法，包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等，方便开发者查阅和使用。 ... [详细]

蜡笔小新 2023-12-09 03:01:43
ip
Transformation和action是什么？区别？

RDD创建后就可以在RDD上进行数据处理。RDD支持两种操作:1.转换（transformation）:即从现有的数据集创建一个新的数据集2.动作&#x ... [详细]

蜡笔小新 2023-10-17 12:40:21
stream
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
ip
关于Perl中split的用法的更多说明 - More clarification about the usage of split in Perl

Ihavethisfollowinginputfile:我有以下输入文件:test.csvdone_cfg,,,,port<0>,clk_in,subcktA,ins ... [详细]

蜡笔小新 2023-10-16 17:45:16

VASTEw

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章