sparkui的访问地址_SparkWebUI详解

作者：glh3112259 | 来源：互联网 | 2023-09-01 07:02

1.JobsUser:spark任务提交的用户，用以进行权限控制与资源分配。TotalUptime:sparkapplication总的运行时间，从ap

1.Jobs

User: spark任务提交的用户&＃xff0c;用以进行权限控制与资源分配。

Total Uptime: spark application总的运行时间&＃xff0c;从appmaster开始运行到结束的整体时间。

Scheduling Mode: application中task任务的调度策略&＃xff0c;由参数spark.scheduler.mode来设置&＃xff0c;可选的参数有FAIR和FIFO&＃xff0c;默认是FIFO。这与yarn的资源调度策略的层级不同&＃xff0c;yarn的资源调度是针对集群中不同application间的&＃xff0c;而spark scheduler mode则是针对application内部task set级别的资源分配&＃xff0c;不同FAIR策略的参数配置方式与yarn中FAIR策略的配置方式相同。

Completed Jobs: 已完成Job的基本信息&＃xff0c;如想查看某一个Job的详细情况&＃xff0c;可点击对应Job进行查看。

Active Jobs: 正在运行的Job的基本信息。

Event Timeline: 在application应用运行期间&＃xff0c;Job和Exector的增加和删除事件进行图形化的展现。这个就是用来表示调度job何时启动何时结束&＃xff0c;以及Excutor何时加入何时移除。我们可以很方便看到哪些job已经运行完成&＃xff0c;使用了多少Excutor&＃xff0c;哪些正在运行。

Job默认都是串行提交运行的&＃xff0c;如果Job间没有依赖&＃xff0c;可以使用多线程并行提交Job。

2.Jobs Detail

Staus: 展示Job的当前状态信息。

Active Stages: 正在运行的stages信息&＃xff0c;点击某个stage可进入查看具体的stage信息。

Pending Stages: 排队的stages信息&＃xff0c;根据解析的DAG图stage可并发提交运行&＃xff0c;而有依赖的stage未运行完时则处于等待队列中。

Completed Stages: 已经完成的stages信息。

Event Timeline: 展示当前Job运行期间stage的提交与结束、Executor的加入与退出等事件信息。

DAG Visualization: 当前Job所包含的所有stage信息(stage中包含的明细的tranformation操作)&＃xff0c;以及各stage间的DAG依赖图。DAG也是一种调度模型&＃xff0c;在spark的作业调度中&＃xff0c;有很多作业存在依赖关系&＃xff0c;所以没有依赖关系的作业可以并行执行&＃xff0c;有依赖的作业不能并行执行。

3.Stages Detail

在Job Detail页点击进入某个stage后&＃xff0c;可以查看某一stage的详细信息&＃xff1a;

Total time across all tasks: 当前stage中所有task花费的时间和。

Locality Level Summary: 不同本地化级别下的任务数&＃xff0c;本地化级别是指数据与计算间的关系(PROCESS_LOCAL进程本地化&＃xff1a;task与计算的数据在同一个Executor中。NODE_LOCAL节点本地化&＃xff1a;情况一&＃xff1a;task要计算的数据是在同一个Worker的不同Executor进程中&＃xff1b;情况二&＃xff1a;task要计算的数据是在同一个Worker的磁盘上&＃xff0c;或在 HDFS 上&＃xff0c;恰好有 block 在同一个节点上。RACK_LOCAL机架本地化&＃xff0c;数据在同一机架的不同节点上&＃xff1a;情况一&＃xff1a;task计算的数据在Worker2的Executor中&＃xff1b;情况二&＃xff1a;task计算的数据在Worker2的磁盘上。ANY跨机架&＃xff0c;数据在非同一机架的网络上&＃xff0c;速度最慢)。

Input Size/Records: 输入的数据字节数大小/记录条数。

Shuffle Write: 为下一个依赖的stage提供输入数据&＃xff0c;shuffle过程中通过网络传输的数据字节数/记录条数。应该尽量减少shuffle的数据量及其操作次数&＃xff0c;这是spark任务优化的一条基本原则。

DAG Visualization: 当前stage中包含的详细的tranformation操作流程图。

Metrics: 当前stage中所有task的一些指标(每一指标项鼠标移动上去后会有对应解释信息)统计信息。

Event Timeline: 清楚地展示在每个Executor上各个task的各个阶段的时间统计信息&＃xff0c;可以清楚地看到task任务时间是否有明显倾斜&＃xff0c;以及倾斜的时间主要是属于哪个阶段&＃xff0c;从而有针对性的进行优化。

Aggregated Metrics by Executor: 将task运行的指标信息按excutor做聚合后的统计信息&＃xff0c;并可查看某个Excutor上任务运行的日志信息。

Tasks: 当前stage中所有任务运行的明细信息&＃xff0c;是与Event Timeline中的信息对应的文字展示(可以点击某个task查看具体的任务日志)。

stdout: 输出语句println()。

stderr: spark运行日志&＃xff0c;spark默认使用log4j记录日志。

4.Storage

storage页面能看出application当前使用的缓存情况&＃xff0c;可以看到有哪些RDD被缓存了&＃xff0c;以及占用的内存资源。如果job在执行时持久化(persist)/缓存(cache)了一个RDD&＃xff0c;那么RDD的信息可以在这个选项卡中查看。Storage Level展示数据集如何缓存&＃xff0c;以及所缓存数据的副本数量。

5.Storage Detail

点击具体的RDDID&＃xff0c;进入detail页。包括&＃xff1a;

缓存RDD的概要信息。

在不同EXecutor上的分布(每个Executor上需要的内存)。

分块信息&＃xff0c;如存储级别/位置/每个缓存RDD分块大小。

6.Enviroment

Environment选项卡提供有关Spark应用程序中使用的各种属性和环境变量的信息。

7.Executor

Executors选项卡提供了关于内存、CPU核和其他被Executors使用的资源的信息。这些信息在Executor级别和汇总级别都可以获取到。一方面通过它可以看出来每个excutor是否发生了数据倾斜&＃xff0c;另一方面可以具体分析目前的应用是否产生了大量的shuffle&＃xff0c;是否可以通过数据的本地性或者减小数据的传输来减少shuffle的数据量。

Summary: 该application运行过程中使用Executor的统计信息。

Executors: 每个Excutor的详细信息(包含driver)&＃xff0c;可以点击查看某个Executor中任务运行的详细日志。

8.SQL

SQL选项卡(只有执行了spark SQL查询才会有SQL选项卡)可以查看SQL执行计划的细节&＃xff0c;它提供了SQL查询的DAG以及显示Spark如何优化已执行的SQL查询的查询计划。

推荐阅读

runtime
Kafka 版本不兼容引发 TaskExecutor 启动故障分析与解决

在本地环境中部署了两个不同版本的 Flink 集群，分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时，遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常，但任务仍无法成功启动。经过详细分析，发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖，最终成功解决了这一故障。 ... [详细]

蜡笔小新 2024-11-08 14:13:56
ip
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
import
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
import
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
import
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
object
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
ip
如何使用 PHP 和 SSL 安全地连接到 MySQLi 数据库服务器

在使用 PHP 通过 SSL 安全连接到 MySQLi 数据库服务器时，遇到了一些技术难题。我的环境包括一个 Web 服务器和一个数据库服务器，两者均使用 OpenSSL 生成了证书。尽管证书内容一致，但在尝试从 Web 服务器使用 `mysql` 命令进行连接时，仍然遇到了问题。为了确保连接的安全性和稳定性，需要进一步检查证书配置和 PHP 的 SSL 设置，以排除潜在的配置错误或兼容性问题。 ... [详细]

蜡笔小新 2024-10-24 19:52:58
input
Logstash安装配置

阅读此文请先阅读上文：[大数据]-Elasticsearch5.3.1IK分词，同义词联想搜索设置，前面介绍了ES，Kiba ... [详细]

蜡笔小新 2024-10-19 17:54:56
datetime
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
import
PyTorch实用技巧汇总（持续更新中）

空洞卷积（Dilated Convolutions）在卷积操作中通过在卷积核元素之间插入空格来扩大感受野，这一过程由超参数 dilation rate 控制。这种技术在保持参数数量不变的情况下，能够有效地捕捉更大范围的上下文信息，适用于多种视觉任务，如图像分割和目标检测。本文将详细介绍空洞卷积的计算原理及其应用场景。 ... [详细]

蜡笔小新 2024-11-11 12:16:55
ip
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
import
如何在Java中获取当前操作系统的进程列表及其详细信息

本文探讨了如何利用Java代码获取当前本地操作系统中正在运行的进程列表及其详细信息。通过引入必要的包和类，开发者可以轻松地实现这一功能，为系统监控和管理提供有力支持。示例代码展示了具体实现方法，适用于需要了解系统进程状态的开发人员。 ... [详细]

蜡笔小新 2024-11-09 10:45:26
object
如何在服务器后台运行PHP脚本？

如何在服务器后台运行PHP脚本？ ... [详细]

蜡笔小新 2024-10-24 13:43:01
object
利用注解在Spring框架中实现面向切面编程（AOP）

本文探讨了如何在Spring框架中通过注解实现面向切面编程（AOP）。具体介绍了使用`@Retention(RetentionPolicy.RUNTIME)`和`@Target({ElementType.TYPE, ElementType.METHOD})`等注解来定义切面，以及如何配置Spring AOP以实现对业务逻辑的增强和解耦。通过实例代码，详细展示了注解驱动的AOP在实际项目中的应用，为开发者提供了实用的参考。 ... [详细]

蜡笔小新 2024-10-24 13:35:45
object
【原创】《Linux设备驱动开发》学习笔记：逐步掌握调试技巧

【原创】《Linux设备驱动程序》学习之循序渐进---调试技术第四章---调试技术内核编程带有它自己的,独特的调试挑战性.内核代码无法轻易地在一个调试器下运行,也无法轻易的被跟踪,因为 ... [详细]

蜡笔小新 2024-10-23 13:15:45

glh3112259

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章