当前位置: 开发笔记 > 后端 > 正文

为什么Spark提交脚本spark-submit忽略`--num-executors`？

作者：jackystorm岁月_657 | 来源：互联网 | 2023-05-28 02:19

如何解决《为什么Spark提交脚本spark-submit忽略`--num-executors`？》经验，应该怎么办？

我们在YARN下运行了Spark 1.0.0，--num-executors似乎并没有增加执行器或节点的数量。我说我想要8，但是我通常以3到5结尾。输出中没有错误，这是我期望节点处于关闭状态且无法与之对话的结果。

注意：如果您不是在YARN下运行，则num-executors将被忽略，例如spark独立模式。请参阅接受的答案以获取解决方案和评论。

更新：如果我要X资源，我想要X资源，如果我不能拥有X资源，我想被放在队列中或给出某种错误消息。这是因为如果我没有X资源，我的工作就会失败-我知道在工作失败之前我需要多少资源。我不想在我的工作上实现任何额外的层来检查将要给我多少执行者和节点，以便它可以在任务自行炸毁之前优雅地终止该工作。因此，问题的第二部分是“ 1）是否有办法告诉YARN / Spark如果我无法获得想要的执行程序而失败？2）强制停止YARN在同一节点上放置多个执行程序”

（在0.9.0中，这不是问题，N个节点意味着N个工人和工作将排队）

推荐阅读

队列
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
http
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
http
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
api
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
api
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
api
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
api
Enhancing Paragraph Configuration in Create Note/Paragraph REST API

This pull request introduces the ability to provide comprehensive paragraph configurations directly within the Create Note and Create Paragraph REST endpoints, reducing the need for additional configuration calls. ... [详细]

蜡笔小新 2024-12-23 13:32:41
队列
Netflix利用Druid实现高效实时数据分析

本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid，实现了高效的数据采集、处理和实时分析，从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践，并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]

蜡笔小新 2024-12-23 11:10:01
队列
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
php
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
http
尾花|花萼_相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）

尾花|花萼_相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman） ... [详细]

蜡笔小新 2024-12-19 11:28:16
http
利用Scala与Spark实现业务逻辑测试的自动化方案

本文介绍了一款基于Spark和Scala开发的应用程序，该应用通过配置单元作为输入，经过Spark处理层进行批处理操作，最终数据存储于Cassandra数据库中。文章探讨了如何实现该应用的测试自动化，包括业务逻辑测试、集成测试、用户验收测试（UAT）及回归测试。 ... [详细]

蜡笔小新 2024-12-17 12:28:24
api
PySpark实战：高效使用DataFrame超越RDD

本文深入探讨了PySpark中DataFrame的使用方法及其相对于传统RDD的优势，旨在帮助开发者更好地理解和利用这一强大工具。 ... [详细]

蜡笔小新 2024-12-15 17:19:11
api
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
cache
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新 2024-12-03 18:26:35

jackystorm岁月_657

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章