Spark的基本概念与架构

作者：晨钟暮鼓芋 | 来源：互联网 | 2023-10-10 13:13

一、Spark简介Spark是一种与

一、Spark简介

Spark 是一种与 Hadoop 相似的开源集群计算环境&＃xff0c;但是两者之间还存在一些不同之处&＃xff0c;这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越&＃xff0c;换句话说&＃xff0c;Spark 启用了内存分布数据集&＃xff0c;除了能够提供交互式查询外&＃xff0c;它还可以优化迭代工作负载。为了使程序运行更快&＃xff0c;Spark提供了内存计算和基于DAG的任务调度执行机制&＃xff0c;减少了迭代计算时的I/O开销&＃xff1b;而为了使编写程序更为容易&＃xff0c;Spark使用简练、优雅的Scala语言编写&＃xff0c;基于Scala提供了交互式的编程体验。同时&＃xff0c;Spark支持Scala、Java、Python、R等多种编程语言。
Spark 集成了许多大数据工具&＃xff0c;例如 Spark 可以处理任何 Hadoop 数据源&＃xff0c;也能在 Hadoop 集群上执行。大数据业内有个共识认为&＃xff0c;Spark 只是Hadoop MapReduce 的扩展&＃xff08;事实并非如此&＃xff09;&＃xff0c;如Hadoop MapReduce 中没有的迭代查询和流处理。然而Spark并不需要依赖于 Hadoop&＃xff0c;它有自己的集群管理系统。更重要的是&＃xff0c;同样数据量&＃xff0c;同样集群配置&＃xff0c;Spark 的数据处理速度要比 Hadoop MapReduce 快10倍左右。

二、Spark的主要特点

1&＃xff0c;运行速度快

Spark使用先进的有向无环图&＃xff08;Directed Acyclic Graph&＃xff0c;DAG&＃xff09;执行引擎&＃xff0c;以支持循环数据流与内存计算&＃xff0c;基于内存的执行速度可比Hadoop MapReduce快上百倍&＃xff0c;基于磁盘的执行速度也能快十倍&＃xff1b;

2&＃xff0c;容易使用

Spark支持使用Scala、Java、Python和R语言进行编程&＃xff0c;简洁的API设计有助于用户轻松构建并行程序&＃xff0c;并且可以通过Spark Shell进行交互式编程&＃xff1b;

3&＃xff0c;通用性

Spark提供了完整而强大的技术栈&＃xff0c;包括SQL查询、流式计算、机器学习和图算法组件&＃xff0c;这些组件可以无缝整合在同一个应用中&＃xff0c;足以应对复杂的计算&＃xff1b;

4&＃xff0c;运行模式多样

Spark可运行于独立的集群模式中&＃xff0c;或者运行于Hadoop中&＃xff0c;也可运行于Amazon EC2等云环境中&＃xff0c;并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

三、Spark的生态系统

在这里插入图片描述

1&＃xff0c;Spark Core

Spark Core包含Spark最基础和最核心的功能&＃xff0c;如内存计算、任务调度、部署模式、故障恢复、存储管理等&＃xff0c;主要面向批数据处理。Spark Core建立在统一的抽象RDD之上&＃xff0c;使其可以以基本一致的方式应对不同的大数据处理场景&＃xff1b;需要注意的是&＃xff0c;Spark Core通常被简称为Spark。

2&＃xff0c;Spark SQL

提供通过Apache Hive的SQL变体Hive查询语言&＃xff08;HiveQL&＃xff09;与Spark进行交互的API。每个数据库表被当做一个RDD&＃xff0c;Spark SQL查询被转换为Spark操作。

3&＃xff0c;Spark Streaming

Spark Streaming是一种流计算框架&＃xff0c;可以支持高吞吐量、可容错处理的实时流数据处理&＃xff0c;其核心思路是将流数据分解成一系列短小的批处理作业&＃xff0c;每个短小的批处理作业都可以使用Spark Core进行快速处理。Spark Streaming支持多种数据输入源&＃xff0c;如Kafka、Flume和TCP套接字等。Spark Streaming允许程序能够像普通RDD一样处理实时数据。

4&＃xff0c;MLlib

MLlib提供了常用机器学习算法的实现&＃xff0c;包括聚类、分类、回归、协同过滤等&＃xff0c;降低了机器学习的门槛&＃xff0c;开发人员只要具备一定的理论知识就能进行机器学习方面的工作。

5&＃xff0c;GraphX

控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API&＃xff0c;包含控制图、创建子图、访问路径上所有顶点的操作。
注意&＃xff1a;无论是Spark SQL、Spark Streaming、MLlib还是GraphX&＃xff0c;都可以使用Spark Core的API处理问题&＃xff0c;它们的方法几乎是通用的&＃xff0c;处理的数据也可以共享&＃xff0c;不同应用之间的数据可以无缝集成。

四、Spark运行架构

在这里插入图片描述
Spark运行架构包括集群资源管理器&＃xff08;Cluster Manager&＃xff09;、运行作业任务的工作节点&＃xff08;Worker Node&＃xff09;、每个应用的任务控制节点&＃xff08;Driver Program&＃xff0c;或简称为Driver&＃xff09;和每个工作节点上负责具体任务的执行进程&＃xff08;Executor&＃xff09;。其中&＃xff0c;集群资源管理器可以是Spark自带的资源管理器&＃xff0c;也可以是YARN或Mesos等资源管理框架。可以看出&＃xff0c;就系统架构而言&＃xff0c;Spark采用“主从架构”&＃xff0c;包含一个Master&＃xff08;即Driver&＃xff09;和若干个Worker。

1&＃xff0c;Cluster Manager

在standalone模式中即为Master主节点&＃xff0c;控制整个集群&＃xff0c;监控worker。在YARN模式中为资源管理器。目前有三种类型&＃xff1a;
Standalon : spark原生的资源管理&＃xff0c;由Master负责资源的分配
Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
Hadoop Yarn: 主要是指Yarn中的ResourceManager

2&＃xff0c;Worker节点

集群中任何一个可以运行spark应用代码的节点。Worker就是物理节点&＃xff0c;可以在上面启动Executor进程。从节点&＃xff0c;负责控制计算节点&＃xff0c;启动Executor或者Driver。

3&＃xff0c;Driver

运行Application 的main()函数。Spark中的Driver即运行Application的main函数并创建SparkContext&＃xff0c;创建SparkContext的目的是为了准备Spark应用程序的运行环境&＃xff0c;在Spark中由SparkContext负责与Cluster Manager通信&＃xff0c;进行资源申请、任务的分配和监控等&＃xff0c;当Executor部分运行完毕后&＃xff0c;Driver同时负责将SparkContext关闭。

4&＃xff0c;Executor

在每个Worker上为某应用启动的一个进程&＃xff0c;该进程负责运行Task&＃xff0c;并且负责将数据存在内存或者磁盘上&＃xff0c;每个任务都有各自独立的Executor。Executor是一个执行Task的容器。它的主要职责是&＃xff1a;
● 初始化程序要执行的上下文SparkEnv&＃xff0c;解决应用程序需要运行时的jar包的依赖&＃xff0c;加载类。
● 向cluster manager汇报当前的任务状态。
Executor是一个应用程序运行的监控和执行容器。
Spark所采用的Executor有两个优点&＃xff1a;一是利用多线程来执行具体的任务&＃xff08;Hadoop MapReduce采用的是进程模型&＃xff09;&＃xff0c;减少任务的启动开销&＃xff1b;二是Executor中有一个BlockManager存储模块&＃xff0c;会将内存和磁盘共同作为存储设备&＃xff08;默认使用内存&＃xff0c;当内存不够时&＃xff0c;会写到磁盘&＃xff09;&＃xff0c;当需要多轮迭代计算时&＃xff0c;可以将中间结果存储到这个存储模块里&＃xff0c;下次需要时&＃xff0c;就可以直接读取该存储模块里的数据&＃xff0c;而不需要读取HDFS等文件系统的数据&＃xff0c;因而有效减少了I/O开销&＃xff0c;或者在交互式查询场景下&＃xff0c;预先将表缓存到该存储系统上&＃xff0c;从而可以提高读写I/O性能。

五、Spark运行基本流程

在这里插入图片描述

1&＃xff0c;运行流程

&＃xff08;1&＃xff09;当一个Spark应用被提交时&＃xff0c;首先需要为这个应用构建起基本的运行环境&＃xff0c;即由任务控制节点&＃xff08;Driver&＃xff09;创建一个SparkContext对象&＃xff0c;由SparkContext负责和资源管理器&＃xff08;ClusterManager&＃xff09;的通信以及进行资源的申请、任务的分配和监控等&＃xff0c;SparkContext会向资源管理器注册并申请运行Executor的资源&＃xff0c;SparkContext可以看成是应用程序连接集群的通道。
&＃xff08;2&＃xff09;资源管理器为Executor分配资源&＃xff0c;并启动Executor进程&＃xff0c;Executor运行情况将随着“心跳”发送到资源管理器上。
&＃xff08;3&＃xff09;SparkContext根据RDD的依赖关系构建DAG图&＃xff0c;DAG图提交给DAG调度器&＃xff08;DAGScheduler&＃xff09;进行解析&＃xff0c;将DAG图分解成多个“阶段”&＃xff08;每个阶段都是一个任务集&＃xff09;&＃xff0c;并且计算出各个阶段之间的依赖关系&＃xff0c;然后把一个个“任务集”提交给底层的任务调度器&＃xff08;TaskScheduler&＃xff09;进行处理&＃xff1b;Executor向SparkContext申请任务&＃xff0c;任务调度器将任务分发给Executor运行&＃xff0c;同时&＃xff0c;SparkContext将应用程序代码发放给Executor。
&＃xff08;4&＃xff09;任务在Executor上运行&＃xff0c;把执行结果反馈给任务调度器&＃xff0c;然后反馈给DAG调度器&＃xff0c;运行完毕后写入数据并释放所有资源。
总体而言&＃xff0c;

2&＃xff0c;Spark运行架构的特点

&＃xff08;1&＃xff09;每个应用都有自己专属的Executor进程&＃xff0c;并且该进程在应用运行期间一直驻留。Executor进程以多线程的方式运行任务&＃xff0c;减少了多进程任务频繁的启动开销&＃xff0c;使得任务执行变得非常高效和可靠。
&＃xff08;2&＃xff09;Spark运行过程与资源管理器无关&＃xff0c;只要能够获取Executor进程并保持通信即可。
&＃xff08;3&＃xff09;Executor上有一个BlockManager存储模块&＃xff0c;类似于键值存储系统&＃xff08;把内存和磁盘共同作为存储设备&＃xff09;&＃xff0c;在处理迭代计算任务时&＃xff0c;不需要把中间结果写入到HDFS等文件系统&＃xff0c;而是直接放在这个存储系统上&＃xff0c;后续有需要时就可以直接读取&＃xff1b;在交互式查询场景下&＃xff0c;也可以把表提前缓存到这个存储系统上&＃xff0c;提高读写I/O性能。
&＃xff08;4&＃xff09;任务采用了数据本地性和推测执行等优化机制。数据本地性是尽量将计算移到数据所在的节点上进行&＃xff0c;即“计算向数据靠拢”&＃xff0c;因为移动计算比移动数据所占的网络资源要少得多。而且&＃xff0c;Spark采用了延时调度机制&＃xff0c;可以在更大的程度上实现执行过程优化。比如&＃xff0c;拥有数据的节点当前正被其他的任务占用&＃xff0c;那么&＃xff0c;在这种情况下是否需要将数据移动到其他的空闲节点呢&＃xff1f;答案是不一定。因为&＃xff0c;如果经过预测发现当前节点结束当前任务的时间要比移动数据的时间还要少&＃xff0c;那么&＃xff0c;调度就会等待&＃xff0c;直到当前节点可用。

六、Spark使用场景

1&＃xff0c;离线ETL

离线ETL主要应用于数据仓库&＃xff0c;对大规模的数据进行抽取&＃xff08;Extract&＃xff09;、转换&＃xff08;Transform&＃xff09;和加载&＃xff08;Load&＃xff09;&＃xff0c;其特点是数据量大&＃xff0c;耗时较长&＃xff0c;通常设置为定时任务执行。

2&＃xff0c;在线数据分析&＃xff08;OLAP&＃xff09;

在线数据分析主要应用于BI&＃xff08;Business Intelligence&＃xff09;。分析人员交互式地提交查询作业&＃xff0c;Spark可以快速地返回结果。除了Spark&＃xff0c;常见的OLAP引擎包括Presto和Impala等。Spark 3.0的主要特性在EMR中的Spark 2.4版本已支持&＃xff0c;更多特性详情请参见Spark SQL Guide。

3&＃xff0c;流计算流计算

主要应用于实时大屏、实时风控、实时推荐和实时报警监控等。流计算主要包括Spark Streaming和Flink引擎&＃xff0c;Spark Streaming提供DStream和Structured Streaming两种接口&＃xff0c;Structured Streaming和Dataframe用法类似&＃xff0c;门槛较低。Flink适合低延迟场景&＃xff0c;而Spark Streaming更适合高吞吐的场景&＃xff0c;详情请参见Structured Streaming Programming Guide。

4&＃xff0c;机器学习

Spark的MLlib提供了较丰富的机器学习库&＃xff0c;包括分类、回归、协同过滤、聚合&＃xff0c;同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块&＃xff0c;详情请参见Machine Learning Library (MLlib) Guide。

5&＃xff0c;图计算

Spark的GraphX支持图计算的库&＃xff0c;支持丰富的图计算的算子&＃xff0c;包括属性算子、结构算子、Join算子和邻居聚合等。详情请参见GraphX Programming Guide。

推荐阅读

window
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
ip
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
ip
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
ip
深入理解云计算与大数据技术

本文详细探讨了云计算与大数据技术的关键知识点，包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用，以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]

蜡笔小新 2024-11-20 13:24:51
ip
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
ip
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
ip
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
byte
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
ip
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
ip
深入解析：存储技术的演变与发展

本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程，详细解释了各种存储模型及其特点。 ... [详细]

蜡笔小新 2024-11-19 11:25:40
ip
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
byte
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
schema
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
ip
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14

晨钟暮鼓芋

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章