【3天掌握Spark】Standalone集群

作者： | 来源：互联网 | 2023-07-26 16:59

Spark之Standalone集群架构组成SparkStanadlone集群类似HadoopYARN集群功能，管理整个集群中资源（CUPCore核

Spark之Standalone集群

架构组成

Spark Stanadlone集群类似Hadoop YARN集群功能&＃xff0c;管理整个集群中资源&＃xff08;CUP Core核数、内存Memory、磁盘Disk、网络带宽等&＃xff09;
Standalone集群使用了分布式计算中的master-slave模型&＃xff0c;master是集群中含有Master进程的节点&＃xff0c;slave是集群中的Worker节点含有Executor进程。

Standalone集群主从架构&＃xff1a;Master-Slave
主节点&＃xff1a;老大&＃xff0c;管理者&＃xff0c;Master
从节点&＃xff1a;小弟&＃xff0c;干活的&＃xff0c;Workers
Spark Standalone集群&＃xff0c;类似Hadoop YARN&＃xff0c;管理集群资源和调度资源&＃xff1a;
Master&＃xff0c;管理整个集群资源&＃xff0c;接收提交应用&＃xff0c;分配资源给每个应用&＃xff0c;运行Task任务
Worker&＃xff0c;管理每个机器的资源&＃xff0c;分配对应的资源来运行Task&＃xff1b;每个从节点分配资源信息给Worker管理&＃xff0c;资源信息包含内存Memory和CPU Cores核数
HistoryServer&＃xff0c;Spark Application运行完成以后&＃xff0c;保存事件日志数据至HDFS&＃xff0c;启动HistoryServer可以查
看应用运行相关信息。

配置和部署

当前使用三台虚拟机
在这里插入图片描述

服务启动和运行应用

在Master节点node1上启动&＃xff0c;进入$SPARK_HOME&＃xff0c;必须配置主节点到所有从节点的&＃96;SSH无密钥&＃96;登录&＃xff0c;集群各个机器&＃96;时间同步&＃96;。

在这里插入图片描述

主节点Master启动命令

[root&＃64;node1 ~]# /export/server/spark/sbin/start-master.sh starting org.apache.spark.deploy.master.Master, logging to /export/server/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-node1.itcast.cn.out [root&＃64;node1 ~]# [root&＃64;node1 ~]# jps 15076 DataNode 15497 Master 15545 Jps 14973 NameNode

WEB UI页面地址&＃xff1a;http://node1:8080
在这里插入图片描述

从节点Workers启动命令

/export/server/spark/sbin/start-slaves.sh

在这里插入图片描述

历史服务器HistoryServer

/export/server/spark/sbin/start-history-server.sh

WEB UI页面地址&＃xff1a;http://node1:18080
在这里插入图片描述

将上述运行在Local Mode的圆周率PI程序&＃xff0c;运行在Standalone集群上&＃xff0c;修改【--master】地址为Standalone集群地址&＃xff1a;spark://node1.itcast.cn:7077&＃xff0c;具体命令如下&＃xff1a;

SPARK_HOME&＃61;/export/server/spark ${SPARK_HOME}/bin/spark-submit \ --master spark://node1.itcast.cn:7077 \ --class org.apache.spark.examples.SparkPi \ ${SPARK_HOME}/examples/jars/spark-examples_2.11-2.4.5.jar \ 10

查看Master主节点WEB UI界面&＃xff1a;

Spark 应用架构组成

登录到Spark HistoryServer历史服务器WEB UI界面&＃xff0c;点击刚刚运行圆周率PI程序&＃xff1a;
在这里插入图片描述
切换到【Executors】Tab页面&＃xff1a;

从图中可以看到Spark Application运行到集群上时&＃xff0c;由两部分组成&＃xff1a;Driver Program和Executors

每个Executor相当于线程池&＃xff0c;每个线程运行Task任务&＃xff0c;需要1Core CPU。
在这里插入图片描述

一、Driver Program
- 相当于AppMaster&＃xff0c;整个应用管理者&＃xff0c;负责应用中所有Job的调度执行;
- 运行JVM Process&＃xff0c;运行程序的MAIN函数&＃xff0c;必须创建SparkContext上下文对象&＃xff1b;
- 一个SparkApplication仅有一个&＃xff1b;
第二、Executors
- 相当于一个线程池&＃xff0c;运行JVM Process&＃xff0c;其中有很多线程&＃xff0c;每个线程运行一个Task任务&＃xff0c;
  一个Task运行需要1 Core CPU&＃xff0c;所有可以认为Executor中线程数就等于CPU Core核数&＃xff1b;
- 一个Spark Application可以有多个&＃xff0c;可以设置个数和资源信息&＃xff1b;
  -

Spark 应用WEB UI 监控

Spark 提供了多个监控界面&＃xff0c;当运行Spark任务后可以直接在网页对各种信息进行监控查看。

运行spark-shell交互式命令在Standalone集群上&＃xff0c;命令如下&＃xff1a;

/export/server/spark/bin/spark-shell --master spark://node1:7077

在这里插入图片描述
在spark-shell中执行词频统计WordCount程序代码&＃xff0c;运行如下&＃xff1a;

val inputRDD &＃61; sc.textFile("/datas/wordcount.data") val wordcountsRDD &＃61; inputRDD.flatMap(line &＃61;> line.split("\\s&＃43;")).map(word &＃61;> (word, 1)).reduceByKey((tmp, item) &＃61;> tmp &＃43;item) wordcountsRDD.take(5)

在这里插入图片描述
可以发现在一个Spark Application中&＃xff0c;包含多个Job&＃xff0c;每个Job有多个Stage组成&＃xff0c;每个Job执行按照DAG图进行的。

其中每个Stage中包含多个Task任务&＃xff0c;每个Task以线程Thread方式执行&＃xff0c;需要1Core CPU。
在这里插入图片描述
Spark Application程序运行时三个核心概念&＃xff1a;Job、Stage、Task&＃xff0c;说明如下

Job和Stage及Task之间关系&＃xff1a;

Standalone HA

Spark Standalone集群是Master-Slaves架构的集群模式&＃xff0c;和大部分的Master-Slaves结构集群一样&＃xff0c;存在着Master单点故障&＃xff08;SPOF&＃xff1a;single Point of Failover&＃xff09;的问题。
在这里插入图片描述
ZooKeeper提供了一个Leader Election机制&＃xff0c;利用这个机制可以保证虽然集群存在多个Master&＃xff0c;但是只有一个是Active的&＃xff0c;其他的都是Standby。当Active的Master出现故障时&＃xff0c;另外的一个Standby Master会被选举出来。

使用Zookeeper集群&＃xff1a;选举leader、监控leader
在这里插入图片描述
基于Zookeeper实现HA&＃xff1a;http://spark.apache.org/docs/2.4.5/spark-standalone.html#high-availability
点个赞嘛&＃xff01;

推荐阅读

hdfs
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
hdfs
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
dll
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
ip
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
ip
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
ip
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
ip
海马s5近光灯能否直接更换为H7？

本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡，并提供了完整的教程下载地址。此外，还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]

蜡笔小新 2023-12-12 11:39:00
runtime
Java 11相对于Java 8，OptaPlanner性能提升有多大？

本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明，在相同的硬件环境下，Java 11相对于Java 8在垃圾回收方面表现更好，从而提升了OptaPlanner的性能。 ... [详细]

蜡笔小新 2023-12-11 10:59:22
list
Java面经整理及相关概念解析

本文整理了Java面试中常见的问题及相关概念的解析，包括HashMap中为什么重写equals还要重写hashcode、map的分类和常见情况、final关键字的用法、Synchronized和lock的区别、volatile的介绍、Syncronized锁的作用、构造函数和构造函数重载的概念、方法覆盖和方法重载的区别、反射获取和设置对象私有字段的值的方法、通过反射创建对象的方式以及内部类的详解。 ... [详细]

蜡笔小新 2023-12-10 22:17:08
list
ESX 3.5 使用

在单位的一台4cpu的服务器上部署了esxserver，挂载了6个虚拟机，目前运行正常。在安装部署过程中，得到了cnvz.net论坛精华区 ... [详细]

蜡笔小新 2023-10-17 17:20:29
ip
生产环境下JVM调优参数的设置实例

正文前先来一波福利推荐：福利一：百万年薪架构师视频，该视频可以学到很多东西，是本人花钱买的VIP课程，学习消化了一年，为了支持一下女朋友公众号也方便大家学习，共享给大家。福利二 ... [详细]

蜡笔小新 2023-10-17 14:08:49
ip
Telemetry获取网络设备CPU信息

交换机配置：intg100unshintvlani1ipadd192.168.56.177qstelseuser-iv4authaaaproinsshupl3qsshuserpyt ... [详细]

蜡笔小新 2023-10-17 13:25:45
ip
Java程序员必会的40个Linux命令！

你知道的越多，不知道的就越多，业余的像一棵小草！你来，我们一起精进！你不来，我和你的竞争对手一起 ... [详细]

蜡笔小新 2023-10-17 09:11:59
dll
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
dll
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13

Tags | 热门标签

RankList | 热门文章