spark提交命令详解

作者：和尚与尼姑离婚 | 来源：互联网 | 2023-09-23 19:43

本片文章主要结合官网的提交说明进行，详情请看http:spark.apache.orgdocslatestsubmitting-applications.html.

本片文章主要结合官网的提交说明进行&＃xff0c;详情请看http://spark.apache.org/docs/latest/submitting-applications.html ./bin/spark-submit \--class --master \--deploy-mode \--conf &＃61; \... # other options \[application-arguments]
标准格式

spark通过命令行来提交&＃xff0c;其中一些参数可以在程序中进行指定

/home/tong/installDirectory/spark-1.4.0-bin-hadoop2.6/bin/spark-submit //提交命令位置的指定

--class com.cloudera.streamDemo.StreamingErrorCount //这个参数可以进行指定jar包的入口位置,不是物理位置

--master spark://spark1:7077 //指定spark执行的master和端口号&＃xff0c;可以在程序中SparkConf中进行指定

target/streamDemo-1.0-SNAPSHOT.jar //编译好jar包的位置

/spark/streamData.txt 1//最后的参数为程序执行过程中需要的文件&＃xff0c;这里指定的为hdfs中的文件位置&＃xff0c;指定参数

其他的一些参数还有&＃xff1a;

--conf可以以key&＃61;value的形式进行spark提交过程中的任意参数的指定&＃xff0c;例如执行的核数&＃xff0c;执行的存储空间等等。

--deploy-mode可以部署你的驱动在工作节点上&＃xff08;cluster&＃xff09;或者是作为外部客户端部署在本地&＃xff08;client&＃xff09;。一种普遍的部署策略是从一台在物理上依赖于你的集群worker节点的网关&＃xff08;入口&＃xff09;机器来提交你的应用。在这种模式下&＃xff0c;client模式是更为合适的&＃xff0c;在client模式中&＃xff0c;提交过程&＃xff08;submit process&＃xff09;被当做集群中的一个client&＃xff0c;驱动在submit下被直接发送&＃xff0c;应用的输入输出被显在控制台&＃xff0c;这种模式对于那种涉及到REPL的应用是比较合适的&＃xff0c;例如spark-shell下。

此外&＃xff0c;如果你的应用是从一台距离你的工作节点很远的机器上提交的&＃xff0c;例如你本地的笔记本&＃xff0c;那么使用cluster模式是非常普遍的&＃xff0c;这种模式可以降低在驱动&＃xff08;drivers&＃xff09;和具体执行机器的中间的网络延迟&＃xff0c;特别注意的是&＃xff0c;cluster模式当前对于mesos集群是并不支持的。当前仅仅是yarn对于Python应用支持cluster模式。在standalone的cluster模式下&＃xff0c;可以指定--supervise参数来确保如果驱动以非0退出码失败的时候&＃xff0c;他可以确保驱动的自动重启。当然还可以在submit下指定其他的参数&＃xff0c;都是比较简单的。下面是一些事例。

# Run application locally on 8 cores ./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master local[8] \/path/to/examples.jar \100# Run on a Spark Standalone cluster in client deploy mode ./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://207.184.161.138:7077 \--executor-memory 20G \--total-executor-cores 100 \/path/to/examples.jar \1000# Run on a Spark Standalone cluster in cluster deploy mode with supervise ./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://207.184.161.138:7077 \--deploy-mode cluster--supervise--executor-memory 20G \--total-executor-cores 100 \/path/to/examples.jar \1000# Run on a YARN cluster export HADOOP_CONF_DIR&＃61;XXX ./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn-cluster \ # can also be &＃96;yarn-client&＃96; for client mode--executor-memory 20G \--num-executors 50 \/path/to/examples.jar \1000# Run a Python application on a Spark Standalone cluster ./bin/spark-submit \--master spark://207.184.161.138:7077 \examples/src/main/python/pi.py \1000

推荐阅读

ip
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
string
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
数组
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
schema
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
string
Java集成第三方库的示例：Log4j的日志记录

本文介绍如何在Java项目中使用Log4j库进行日志记录。我们将详细说明Log4j库的引入、配置及简单应用，帮助开发者快速上手。 ... [详细]

蜡笔小新 2024-12-26 10:59:04
config
Linux系统中设置服务启动优先级的方法

本文详细介绍了Linux系统中init进程的作用及其启动过程，解释了运行级别的概念，并提供了调整服务启动顺序的具体步骤和实例。通过了解这些内容，用户可以更好地管理系统的启动流程和服务配置。 ... [详细]

蜡笔小新 2024-12-25 16:16:05
config
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
version
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
shell
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
go
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
scala
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
scala
Python 文件操作与数据转换

本文详细介绍了Python中文件的基本操作，包括打开、读取、写入和关闭文件的方法，并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外，还涉及了成绩等级替换的具体实现。 ... [详细]

蜡笔小新 2024-12-25 21:45:13
config
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新 2024-12-23 20:23:57
email
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
ip
解析 org.apache.commons.io.IOCase.checkCompareTo() 方法及其应用

本文详细介绍了 org.apache.commons.io.IOCase 类中的 checkCompareTo() 方法，通过多个代码示例展示其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-23 15:32:05

和尚与尼姑离婚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章