Spark1.6.3cache()和persist()

作者：手机用户2502863087 | 来源：互联网 | 2023-09-13 13:08

RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，，然后再针对该RDD进行action操作（这里我们假设执行count操作，中间可能经

RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，
，然后再针对该RDD进行action操作（这里我们假设执行count操作，中间可能经历了一系列transformation操作），虽然第一次count()操作执行完了，但是也不会清除掉RDD中的数据，而是将其缓存在内存或者磁盘上。当第二次再执行count操作时，就不会重新从hdfs上读取数据，形成新的RDD，而是直接从RDD所在的所有节点的缓存中直接读取，对数据直接执行count操作，避免了重复计算。所以如果我们合理使用RDD的持久化机制，可以有效提高应用程序的性能。

从源码来看调用cache()方法，内部调用persist()方法 :

def cache(): this.type = persist()

persist()方法的默认的sotrageLevel 是MEMORY_ONLY，所以cache()方法默认使用内存缓存。

def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def persist(newLevel: StorageLevel): this.type = { // 如果用户设置了checkpoint，我们需要覆盖旧的storage level。 // checkpoint机制会将RDD的数据容错到文件系统上（比如说 hdfs），如果在对RDD进行计算的时候，发现存储的数据不在了，会先找一下checkpoint数据，如果有就是用checkpoint的数据，就不需要去计算了。 if (isLocallyCheckpointed){ persist(LocalRDDCheckpointData.transformStorageLevel(newLevel), allowOverride = true) }else{ persist(newLevel, allowOverride = false) }

推荐阅读

request
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
request
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
request
SSD性能优化：4K对齐详解

本文探讨了SSD购买后是否需要进行4K对齐的问题，并详细解释了4K对齐的原理及其重要性。通过对比机械硬盘与固态硬盘的结构，文章深入分析了4K对齐对SSD性能的影响，并提供了具体的对齐方法。 ... [详细]

蜡笔小新 2024-11-16 16:27:37
php
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
client
MySQL 5.7 服务端在 Windows 上的安装与配置

本文详细介绍了在 Windows 系统上安装和配置 MySQL 5.7 服务端的方法，包括 my.ini 配置文件的设置、初始化数据库、启动服务以及设置用户权限等步骤。 ... [详细]

蜡笔小新 2024-11-16 10:03:42
client
OpenGLPBO

PBO(PixelBufferObject),将像素数据存储在显存中。优点：1、快速的像素数据传递，它采用了一种叫DMA（DirectM ... [详细]

蜡笔小新 2024-11-15 14:56:34
join
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
range
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
php
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
php
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
hash
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
request
深入探索HTTP协议的学习与实践

在初次访问某个网站时，由于本地没有缓存，服务器会返回一个200状态码的响应，并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新，从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略，帮助读者更好地理解和运用HTTP协议。 ... [详细]

蜡笔小新 2024-11-09 10:12:07
request
在Linux系统上编译安装MySQL 5.5源码详细指南

本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先，通过Yum安装必要的依赖软件包，如GCC、GCC-C++等，确保编译环境的完备。接着，下载并解压MySQL 5.5的源码包，配置编译选项，进行编译和安装。最后，完成安装后，进行基本的配置和启动测试，确保MySQL服务正常运行。 ... [详细]

蜡笔小新 2024-11-08 19:06:26
request
【系统架构师精讲】（16）：操作系统核心概念——寄存器、内存与缓存机制详解

在计算机系统架构中，中央处理器（CPU）内部集成了多种高速存储组件，用于临时存储指令、数据和地址。这些组件包括指令寄存器（IR）、程序计数器（PC）和累加器（ACC）。寄存器作为集成电路中的关键存储单元，由触发器构成，具备极高的读写速度，使得数据传输非常迅速。根据功能不同，寄存器可分为基本寄存器和移位寄存器，各自在数据处理中发挥重要作用。此外，寄存器与内存和缓存机制的协同工作，确保了系统的高效运行。 ... [详细]

蜡笔小新 2024-11-08 11:21:27
request
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50

手机用户2502863087

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章