当前位置: 开发笔记 > 编程语言 > 正文

【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂

作者：江苏蓝凯-我家在装修_708 | 来源：互联网 | 2023-09-03 11:20

“决胜云计算大数据时代”Spa

“决胜云计算大数据时代”

Spark亚太研究院100期公益大讲堂【第7期互动问答分享】

Q1:Spark中的RDD到底是什么？

RDD是Spark的核心抽象，可以把RDD看做“分布式函数编程语言”。

RDD有以下核心特征：

Alist of partitions

Afunction for computing each split

Alist of dependencies on other RDDs

Optionally,a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

Optionally,a list of preferred locations to compute each split on (e.g. block locationsfor an HDFS file)

RDD中有两种核心操作：Transformation和Action，Transformation时只会记录对数据操作的元数据，Action时会对数据进行计算并产出结果。

Q2:Checkpoint和persist是什么类型的RDD呢？

RDD的Operation分为两类，transformation和action，其中transformation产生新的RDD，action产生新的数据。作为DAG的lineage对transformation进行存储，当action时执行lineage并产生数据。

checkpoint和persist是RDD比较特殊的两个操作， persist持久化RDD, checkpoint持久化RDD同时切断历史lineage。

Persist和checkpoint有违immutability的操作，它们实际上修改RDD meta info中的storage level和lineage，并返回修改过的RDD对象自身而非新的RDD对象。

Q3:Spark在运行的时候Driver程序运行在什么地方？

在Standalone的模式下Driver运行在提交Spark Application的客户端；

客户端能够提交Spark程序是应为安装了Spark；

Driver要负责程序的运行；

Q4:理解DAGScheduler对DAG Stage划分的诀窍是什么？

一般而言出现从外部读取数据、进行Shuffle操作和写数据的时候会成为Stage划分的边界；

Stage内部的操作是Pipeline的，可以极大的提高程序运行效率；

Shuffle是两个Stage的划分点；

Q5:如何理解Narrow Dependencies和Wide Dependencies？

NarrowDependencies和Wide Dependencies构成了Spark Lineage；

NarrowDependencies：例如map、filter、union、join with inputs co-partitioned;

WideDependencies:例如groupByKey、join with inputs notco-partitioned；

判断是Narrow Dependencies的关键就是左侧RDD Partition操作产出的结果是唯一右侧的RDD Partition；

判断是Wide Dependencies的关键就是左侧RDD Partition操作产出的结果是至少两个右侧的RDD Partitions；

推荐阅读

match
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
ip
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14
case
Python 中的 PyInputPlus 模块

Python中的PyInputPlus模块原文:https ... [详细]

蜡笔小新 2023-10-17 20:32:43
jar
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
ip
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
ip
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
express
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
express
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
ip
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
ip
iOS Metal shader中的if条件判断限制及处理方式

本文讨论了在iOS平台中的Metal框架中，对于if语句中的判断条件的限制和处理方式。作者提到了在Metal shader中，判断条件不能写得太长太复杂，否则可能导致程序停留或没有响应。作者还分享了自己的经验，建议在CPU端进行处理，以避免出现问题。 ... [详细]

蜡笔小新 2023-12-12 19:01:06
ip
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
ip
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
web
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09

江苏蓝凯-我家在装修_708

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章