Spark笔记

作者： | 来源：互联网 | 2023-09-12 18:36

关于Spark论文的一些理解

为什么要出现RDD？

目前的框架在处理迭代算法（iterative algorithms）和交互式数据处理（interactive data mining tools）不够高效。

因为在需要数据复用（data reuse）的情况下，现有的手段是将中间数据写回磁盘，造成巨大的性能开销。

Resilient Distributed Datasets (RDDs)

RDDs are fault-tolerant, parallel data structures that let users explicitly persist intermediate results in memory, control their partitioning to optimize data placement, and manipulate them using a rich set of operators.

以上是论文中作者对于RDD的解释

fault-tolerant

In-memory storage on clusters的抽象是细粒度的（fine-grained），比如kv-store，可以更新内存里的任意一条记录。但这就导致容错时需要备份数据和操作，而带宽相比内存是有限的。

因此RDD的设计是粗粒度的（coarse-grained）变换（transformations）。这样就可以只记录这些变换，而不用记录数据本身。

通过谱系图（lineage）这个DAG图进行操作，进行恢复。

read-only

RDD是只读的，就是说不能改变已有的RDD中的内容。创建新RDD的操作就是变换（transformations）。

persist & partition

explicitly persist 就是说用户可以显式指定RDD持久化到内存或是磁盘，因为用户可能在未来的计算中会用到这个RDD。Spark默认persist操作将RDD放在内存中，内存不够时会将RDD溢出到磁盘上，默认算法是LRU。

Spark Programming Interface

transformations & actions

transformations是生成RDD，actions是进行的操作

Spark是lazy模式，就是说在action前并不进行实际计算。

lines = spark.textFile("hdfs://...")
errors = lines.filter(_.startsWith("ERROR"))
errors.persist()

// Return the time fields of errors mentioning
// HDFS as an array (assuming time is field
// number 3 in a tab-separated format):
errors.filter(_.contains("HDFS"))
.map(_.split(’\t’)(3))
.collect()

persist操作显式地将errors放在内存

如上图，在collect操作时真正进行计算，返回结果

注意，pipeline transformations中间结果并不保存

RDD优缺点

RDD用粗粒度的更新提升了容错的效率，能更好支持批处理计算，但对于细粒度操作不适合，比如爬虫。

Spark Programming Interface

RDD之间的依赖关系

分为宽依赖和窄依赖

narrow dependencies 父RDD最多被一个子RDD依赖
wide dependencies 父RDD被多个子RDD依赖

区分的原因

流水线执行（pipelined execution）：一个窄依赖的partition在完成一个算子时，不必等待其他分区，可以直接进行后续计算。而宽依赖需要等它所有父RDD计算完成后，才能进行下一步。
数据恢复：窄依赖恢复涉及到的父分区少，且可以并行恢复。宽依赖的恢复涉及到大量分区。

任务调度

当遇到action，调度器会根据谱系图生成包含stage的有向无环图。
每个stage都包含尽可能多的窄依赖操作（pipelined transformations with narrow dependencies）
调度器只要调度计算不在内存中的RDD即可
调度器根据数据的局部性调度任务。

partition在某一节点的内存中，调度该任务到该节点
partition在磁盘上，调度到preferred locations（比如HDFS file）

推荐阅读

hash
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
list
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
join
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
list
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
hash
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
hash
SSD性能优化：4K对齐详解

本文探讨了SSD购买后是否需要进行4K对齐的问题，并详细解释了4K对齐的原理及其重要性。通过对比机械硬盘与固态硬盘的结构，文章深入分析了4K对齐对SSD性能的影响，并提供了具体的对齐方法。 ... [详细]

蜡笔小新 2024-11-16 16:27:37
php
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
php
MySQL 5.7 服务端在 Windows 上的安装与配置

本文详细介绍了在 Windows 系统上安装和配置 MySQL 5.7 服务端的方法，包括 my.ini 配置文件的设置、初始化数据库、启动服务以及设置用户权限等步骤。 ... [详细]

蜡笔小新 2024-11-16 10:03:42
php
2023年最新指南：如何在PHP中屏蔽警告和错误

本文详细介绍了如何在PHP中屏蔽警告和错误，包括多种方法和最佳实践，帮助开发者提升代码质量和安全性。 ... [详细]

蜡笔小新 2024-11-16 02:00:40
php
SvpplyTable: 实现可扩展和可折叠的菜单动画

SvpplyTable 是一个示例项目，旨在实现类似 Svpply 应用程序中的可扩展和可折叠的菜单动画效果。该项目托管在 GitHub 上，地址为 https://github.com/liuminqian/SvpplyTable。 ... [详细]

蜡笔小新 2024-11-15 15:27:31
require
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
list
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
php
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
tree
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
require
基于 Vue 和 Element UI 实现的简洁登录界面设计

本文介绍了一种利用 Vue.js 和 Element UI 框架构建的简洁登录界面设计。该设计不仅注重用户体验，还确保了界面的美观性和易用性。通过合理的布局和组件配置，实现了高效、响应式的登录功能，适用于多种前端应用场景。 ... [详细]

蜡笔小新 2024-11-09 11:15:25

Tags | 热门标签

RankList | 热门文章

​Spark笔记

Resilient Distributed Datasets (RDDs)

Spark Programming Interface

RDD优缺点

Spark Programming Interface

RDD之间的依赖关系

任务调度

Spark笔记