当前位置: 开发笔记 > 数据库 > 正文

SparkcreateDataFrame（df.rdd，df.schema）vscheckPoint打破世袭

作者：520那孩HAPPY | 来源：互联网 | 2022-10-14 18:01

如何解决《SparkcreateDataFrame（df.rdd，df.schema）vscheckPoint打破世袭》经验，为你挑选了1个好方法。

我目前正在使用

val df=longLineageCalculation(....)
val newDf=sparkSession.createDataFrame(df.rdd, df.schema)
newDf.join......

为了节省计算计划时的时间，但是文档称检查点是“削减”沿袭的建议方法。但是我不想付出将RDD保存到磁盘的代价。

我的过程是一个不那么长的批处理过程，可以无问题地重新启动，因此检查点对我没有好处（我认为）。

使用“我的”方法会出现什么问题？（文档建议使用检查点，这种检查会比较昂贵，而不是用这个来破坏血统，我想知道原因）

只想到我能猜到，如果某个节点在我的“血统破坏”之后失败了，也许我的过程将失败，而检查点将正常运行吗？（如果DF被缓存而不是检查点该怎么办？）

谢谢！

编辑：

根据SMaZ的回答，我自己的知识以及他提供的文章。使用createDataframe（这是一个Dev-API，因此使用“我” /您自己承担风险）将沿袭保留在内存中（对我来说这不是问题，因为我没有内存问题，而且沿袭也不大）。

有了它，Spark看起来（如果没有经过100％测试）应该能够重建任何失败的内容。

由于在以下执行中不使用数据，因此我将使用cache + createDataframe与检查点（如果我没有记错的话，实际上是cache + saveToHDFS +“ createDataFrame”）。

我的过程不是很关键（如果崩溃），因为用户将始终期望结果并手动启动它，因此，如果出现问题，他们可以重新启动（+ Spark将重新启动）或给我打电话，以便我接听无论如何都存在一些风险，但是我99％的确没有任何风险:)

小智.. 5

让我从下面的行开始创建数据框：

val newDf = sparkSession.createDataFrame（df.rdd，df.schema）

如果我们仔细查看SparkSession类，则会使用注释此方法@DeveloperApi。要了解此注释的含义，请查看DeveloperApi类的以下几行

面向开发人员的较低级别的不稳定API。

在次要版本的Spark中，开发人员API可能会更改或删除。

因此，不建议将此方法用于生产解决方案，在开源世界中，这种方法称为“ 自担风险”。

但是，让我们更深入地探讨createDataframe从RDD 调用时发生的情况。它正在调用internalCreateDataFrameprivate方法并创建LogicalRDD。

在以下情况下创建LogicalRDD：

数据集被请求到检查点

请求SparkSession从内部二进制行的RDD创建DataFrame

因此，它与checkpoint不物理保存数据集的操作相同。它只是从内部二进制行和架构的RDD创建DataFrame。这可能会截断内存中的沿袭，而不是在物理级别。

所以我相信这只是创建另一RDDS的开销，不能被用作替换的checkpoint。

现在，Checkpoint是截断谱系图并将其保存到可靠的分布式/本地文件系统的过程。

为什么要检查站？

如果计算需要很长时间或沿袭时间太长或取决于太多的RDD

保持繁重的血统信息会带来内存成本。

即使在Spark应用程序终止后，检查点文件也不会自动删除，因此我们可以将其用于其他过程

使用“我的”方法会出现什么问题？（文档建议使用检查点，这种检查会比较昂贵，而不是用这个来破坏血统，我想知道原因）

此文章会给高速缓存和检查点的详细信息。IIUC，您的问题更多是在哪里使用检查点。让我们讨论一些有用的检查点实用方案

让我们假设一个场景，我们有一个要执行100次迭代操作的数据集，而每个迭代都将最后一个迭代结果作为输入（Spark MLlib用例）。现在，在此迭代过程中，沿袭将在此期间增长。这里以规则的时间间隔（每10个迭代）对数据集进行检查将确保在发生任何故障的情况下，我们可以从上一个故障点开始处理。

让我们来看一些批处理示例。想象一下，我们有一批正在创建一个具有大量谱系或复杂计算的主数据集。现在，经过一定的定期间隔后，我们得到了一些数据，这些数据应使用较早计算出的主数据集。在这里，如果我们检查主数据集，则可以将其用于来自的所有后续过程sparkSession。

我的过程是一个不那么长的批处理过程，可以无问题地重新启动，因此检查点对我没有好处（我认为）。

没错，如果您的过程不是繁重的工作/大笔的血统，那么就没有检查点。经验法则是，如果不多次使用您的数据集，并且重建时间比花费的时间和用于检查点/缓存的资源要快，那么我们应该避免使用它。它将为您的过程提供更多资源。

1> 小智..：

让我从下面的行开始创建数据框：

val newDf = sparkSession.createDataFrame（df.rdd，df.schema）

如果我们仔细查看SparkSession类，则会使用注释此方法@DeveloperApi。要了解此注释的含义，请查看DeveloperApi类的以下几行

面向开发人员的较低级别的不稳定API。

在次要版本的Spark中，开发人员API可能会更改或删除。

因此，不建议将此方法用于生产解决方案，在开源世界中，这种方法称为“ 自担风险”。

但是，让我们更深入地探讨createDataframe从RDD 调用时发生的情况。它正在调用internalCreateDataFrameprivate方法并创建LogicalRDD。

在以下情况下创建LogicalRDD：

数据集被请求到检查点

请求SparkSession从内部二进制行的RDD创建DataFrame

因此，它与checkpoint不物理保存数据集的操作相同。它只是从内部二进制行和架构的RDD创建DataFrame。这可能会截断内存中的沿袭，而不是在物理级别。

所以我相信这只是创建另一RDDS的开销，不能被用作替换的checkpoint。

现在，Checkpoint是截断谱系图并将其保存到可靠的分布式/本地文件系统的过程。

为什么要检查站？

如果计算需要很长时间或沿袭时间太长或取决于太多的RDD

保持繁重的血统信息会带来内存成本。

即使在Spark应用程序终止后，检查点文件也不会自动删除，因此我们可以将其用于其他过程

使用“我的”方法会出现什么问题？（文档建议使用检查点，这种检查会比较昂贵，而不是用这个来破坏血统，我想知道原因）

此文章会给高速缓存和检查点的详细信息。IIUC，您的问题更多是在哪里使用检查点。让我们讨论一些有用的检查点实用方案

我的过程是一个不那么长的批处理过程，可以无问题地重新启动，因此检查点对我没有好处（我认为）。

推荐阅读

数据库
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
hbase
Hbase 的伪分布部署、shell基本操作及hbase相关理念

1，HBase的的的的伪分布式配置-对zookeeper的配置，这个前面配置过，修改zoo.cfg文件，指定zookeeper的主入口-配置的HBase的的：进入optmo ... [详细]

蜡笔小新 2024-09-27 17:38:45
join
mysql join 算法_【MySQL】之join算法详解

在阿里巴巴的java开发手册有这么一条强制规定：超过三个表禁止join，须要join的字段，数据类型保持绝对一致，多表关联查 ... [详细]

蜡笔小新 2024-09-27 13:57:57
hbase
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
json
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
json
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
数据库
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24
sql
ASP.NET 页面指令之 @OutputCache

缓存的重要性就不用再强调了，@OutputCache给我们提供了一种声明的方式(对应的还有编程的方式)来控制页面和用户控件的缓存策略，这是一种最简单直接的网站优化方式。还是先来过一遍@ ... [详细]

蜡笔小新 2024-09-27 12:38:16
数据库
如何设计一个秒杀系统(各方面都写的很到位)

1.Overview1.1并发读写秒杀要解决的主要问题是：并发读与并发写。并发读的优化理念是尽量减少用户到服务端来读数据，或者让他 ... [详细]

蜡笔小新 2024-09-27 11:20:00
sql
3.sybase笔记——监控

启动监控MonitorTables主要存储一些监控信息（当前运行的SQL，IO统计信息，当前进程情况）比如monDevic ... [详细]

蜡笔小新 2024-09-26 12:50:41
sql
阿里p8用端午节3天假期整理出了Spring Cloud知识点大全，太全了

前言：今天一觉起来，发现我们开工的日期又延迟了，虽然已经在家办公一个多礼拜了，但是由于家里的环境还是不能有很高的效率。于是干脆就对SpringCloud的一些知识点做了一些整理。 ... [详细]

蜡笔小新 2024-09-26 11:16:30
redis
php视频点播系统的简单介绍

本文目录一览：1、phpvod管理员是什么 ... [详细]

蜡笔小新 2024-09-25 21:31:48
数据库
Kafka 的生成者、消费者、broker 的基本概念

kafka是一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或者数据库提交日志用来提供所有事物的持久化记录，通过重建这些日志 ... [详细]

蜡笔小新 2024-09-25 16:48:34
json
实战分析SpringBoot整合JSON，面试题附答案

前言作为同时具备高性能、高可靠和高可扩 ... [详细]

蜡笔小新 2024-09-25 13:56:27
json
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24

520那孩HAPPY

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章