SparkonYarn部分一原理及使用

作者：黑白 | 来源：互联网 | 2023-09-17 15:14

SparkonYarn首先这部分分为源码部分以及实例部分，例子中包括最基本的通过spark-submit提交以及程序中提交yarn这里仅仅说明SparkonYarn的第一部分，分为

Spark on Yarn

首先这部分分为源码部分以及实例部分，例子中包括最基本的通过spark-submit提交以及程序中提交yarn
这里仅仅说明Spark on Yarn的第一部分，分为三块：

原理
spark-submit提交yarn程序
IDEA代码提交yarn程序

1 原理

Spark yarn 模式有两种， yarn-client, yarn-cluster, 其中yarn-client适合测试环境， yarn-cluster适合生产环境。
在详细说明Yarn模式之前，需要先了解几个名词
ResourceManager: 整个集群只有一个，负责集群资源的统一管理和调度，因为整个集群只有一个，所以也有单点问题，
NodeManager：它可以理解为集群中的每一台slave
AM: application master, 对于每一个应用程序都有一个AM, AM主要是向RM申请资源（资源其实就是Container，目前这个Container就是cpu cores, memory), 然后在每个NodeManager上启动Executors（进一步分布资源给内部任务），监控跟踪应用程序的进程等。
这里就引入了YARN的调度框架问题：双层调度框架
(1)RM统一管理集群资源，分配资源给AM
(2)AM将资源进一步分配给Tasks

1.1 Yarn-cluster模式

《Spark on Yarn 部分一原理及使用》 Yarn-cluster

下面来具体说说Spark Yarn Cluster的流程：
（1） Client端启动应用程序，提交APP到YARN RM
（2）RM收到请求之后，就会在集群中随机选择一个NM，为该应用程序分配第一个Container，然后在这个Contaiiner上启动AM，AM则实现了SC等的初始化
（3）AM启动时会向RM注册，并向RM申请资源
（4）AM一旦申请到资源也就是Container之后，会在对应的Container（Container信息里面会包含NM节点信息）启动Executor
（5）AM的SC会分配任务及给Executor进行执行(之前Executor会去向AM中的SC注册），同时EXecutor会向AM汇报运行的状态和进度，也就是上面绿色的通信
（6）AM向RM注册之后， AM会定时向RM汇报程序的运行状态等信息，也就是上面红色部分的通信。

1.2 Yarn-client

《Spark on Yarn 部分一原理及使用》 Yarn-Client

其具体流程和上面的yarn-cluster很类似
（1） Client端启动应用程序，提交APP到YARN RM，这个过程则涉及到SC的初始化，SC启动时会去初始化DAGScheduler调度器，使用反射方法去初始化YarnScheduler 和 YarnClientSchedulerBackend，最终Client会去向RM申请启动AM
（2）RM收到请求之后，就会在集群中随机选择一个NM，为该应用程序分配第一个Container，然后在这个Contaiiner上启动AM，AM则实现了SC等的初始化，此处与yarn-cluster不同的是，SC的初始化驱动程序的启动并不在AM中，也就是AM并不是Driver端，但是AM会和SC通信来获取其需要的资源情况（多少cpu, 多少memory)
(3)当客户端的SC与AM启动完毕，会通信， AM可知道SC需要的资源情况，然后AM会向RM注册，并向RM申请资源Container
(4)AM申请到资源Container之后，会与COntainer对应的NodeManager通信，要求他在其Container里面启动Executor，然后去向客户端的SparkContext注册，并申请任务集Tasks
(5)客户端的SC分配任务集给Executor，
(6)应用程序运行结束之后，客户端的SC会向RM申请资源释放并去关闭自己，kill进程等

上面的流程介绍完之后，来对比一下YARN-CLUSTER 与 yarn-client的区别：
其主要区别的是AM的作用不大一样，
yarn-client模式下：AM仅仅向RM请求资源，然后AM会在对应的Container中要求其所属NodeManager去启动Executor， Client会去与此Container Executor通信，也就是整个程序运行过程中， Client不能离开
yarn-cluster模式： Driver运行在AM中，也就是SC与Executor的所有通信操作都与Client无关了，在提交完应用程序之后，Client就可以离开了。

2 spark-submit提交到yarn

首先安装好Hadoop 并配置好Yarn，之后启动sbin/start-yarn.sh

其次针对Spark的spark-env.sh里面增加：

export HADOOP_CONF_DIR=/home/kason/bigdata/hadoop-2.7.4/etc/hadoop export YARN_CONF_DIR=/home/kason/bigdata/hadoop-2.7.4/etc/hadoop

下面说明一个最基本的应用程序

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object SparkDemo { def main(args: Array[String]): Unit = { val conf: SparkCOnf= new SparkConf().setAppName("SparkDEMO") val sc: SparkCOntext= new SparkContext(conf) val dataRDD: RDD[Int] = sc.parallelize(Array(1,2,3,4)) dataRDD.foreach(print) print(dataRDD.count()) } }

通过maven编译成jar包，然后通过spark-shell去提交此jar包到yarn上

./bin/spark-submit --class SparkDemo --master yarn --deploy-mode cluster --driver-memory 1G --executor-memory 1G --executor-cores 1 /home/kason/workspace/BigdataComponents/SparkLearn/target/SparkLearn-1.0-SNAPSHOT.jar

提交之后显示：

《Spark on Yarn 部分一原理及使用》 image.png
image.png

根据Yarn上的application id找到对应日志：

《Spark on Yarn 部分一原理及使用》 image.png

3 IDEA代码提交到yarn

通过IDEA实现代码提交其实很简单，主要是设置Master， Yarn模式不像mesos以及standalone模式通过传输url来实现资源管理， yarn模式实际上是Hadoop Yarn接管资源管理，具体代码如下：

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object SparkDemo { def main(args: Array[String]): Unit = { val conf: SparkCOnf= new SparkConf().setAppName("SparkDEMO") .setMaster("yarn") //.setMaster("spark://kason-pc:7077") .set("spark.yarn.jars","hdfs://kason-pc:9000/system/spark/yarn/jars/*") .setJars(List("/home/kason/workspace/BigdataComponents/out/artifacts/SparkLearn_jar/SparkLearn.jar")) //.setJars(GETJars.getJars("/home/kason/workspace/BigdataComponents/spark-main/target/spark-main/WEB-INF/lib")) val sc: SparkCOntext= new SparkContext(conf) val dataRDD: RDD[Int] = sc.parallelize(Array(1,2,3,4)) val result = dataRDD.map(res => res * 2) result.collect().foreach(println(_)) print(result.count()) } }

运行spark之后，去8088yarn页面去查看一下：

《Spark on Yarn 部分一原理及使用》 image.png

注意IDEA代码提交到yarn只能使用yarn-client模式

推荐阅读

import
MapReduce统计每个用户的使用总流量

1、原始数据2、使用java程序1）新建项目2）导包　　hadoop-2.7.3\share\hadoop\mapreducehsfs的那些包commo ... [详细]

蜡笔小新 2024-09-25 16:08:41
import
java判断字符串是不是纯数字,判断字符串是否为数字java

本文目录一览：1、java中判断字符串是否为纯数字 ... [详细]

蜡笔小新 2024-09-27 16:26:40
import
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
import
UILabel的混合显示动画效果

UILabel的混合显示动画效果 ... [详细]

蜡笔小新 2024-09-29 20:18:24
import
IDEA实用插件Lombok

LombokLombok是一个可以通过简单的注解形式来帮助我们简化消除一些必须有但显得很臃肿的Java代码的工具，通过使用对应的注解，可以在编译源码的时候生成对应的方法。通常，我们所定义的对象和b ... [详细]

蜡笔小新 2024-09-29 18:30:50
const
编译原理c语言词法分析器,用C语言实现一个真正的词法分析器

词法分析，是编译器的第一个模块，也是最简单的模块。最简单，指的是相对于编译器这种大型程序而言，与一般的代码相比还是有点复杂的 ... [详细]

蜡笔小新 2024-09-29 12:51:26
import
接口自动化相关面试题

你好，我是懂Java的测试最近辅导简历，有同学向我反馈，自学过接口自动化、没有落地接口自动化项目办？还有很多同学落地实践过自 ... [详细]

蜡笔小新 2024-09-29 12:34:29
export
PostgreSQL 源码性能诊断(perf profiling)指南

标签PostgreSQL,Linux,perf,性能诊断,stap,systemtap,strace,dtrace,dwarf,profiler,perf_events,probe ... [详细]

蜡笔小新 2024-09-29 11:25:52
import
Python .py生成.pyd文件并打包.exe注意事项

最近用python写了一个小程序，想发布出去让人试用又不想暴露源码，搜索了一下发现将py文件编译成pyd文件就能达到目的。转换过程很简单，但是在调用pyd文件并且打包为单个exe文 ... [详细]

蜡笔小新 2024-09-28 20:53:01
case
Android Studio 使用BottomNavigationView 实现底部 tabs (一)

一、在androidStudio中实现tabs比较简单，新建项目就可以选择tabs模板进行创建，默认实现tabs功能：直接运行项目就可以看到效果：可以说非常简单，但是我们在实际开发 ... [详细]

蜡笔小新 2024-09-28 19:42:55
import
struts2的零配置

最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现s ... [详细]

蜡笔小新 2024-09-25 15:21:19
export
自定义_自定义AXIIP核（转）

本文由编程笔记#小编为大家整理，主要介绍了自定义AXI-IP核（转）相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-24 17:31:01
import
vue组件component的注册与使用详解_vue.js

组件是Vue是一个可以重复使用的Vue实例, 它拥有独一无二的组件名称,它可以扩展HTML元素,以组件名称的方式作为自定义的HTML标签，这篇文章主要介绍了vue组件compone ... [详细]

蜡笔小新 2024-09-24 17:30:33
import
Go Cobra命令行工具入门教程

本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中，如Kubernetes、Hugo和Github CLI等。通过使用Cobra，我们可以快速创建命令行工具，适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]

蜡笔小新 2023-12-12 20:02:41
import
wepy小顺序受权点击作废受权失利的计划

本文介绍了在wepy中运用小顺序页面受权的计划，包含了用户点击作废后的从新受权计划。 ... [详细]

蜡笔小新 2023-12-12 11:09:24

黑白

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章