Sparkonyarn遇到的问题

作者：传闻中的张先生 | 来源：互联网 | 2023-08-16 09:01

1.spark提交后一直循环acceptedsparkonyarn提交任务时一直显示ACCEPTED，过一个小时后就会出现任务失败，但在提交时shell终端显示的日志并没有报错，l

1. spark提交后一直循环accepted

spark on yarn提交任务时一直显示ACCEPTED，过一个小时后就会出现任务失败，但在提交时shell终端显示的日志并没有报错，logs文件夹中也没有日志产生。注：spark on yarn是不需要启动spark集群的，只需要在提交任务的机器配置spark就可以了，因为任务是由hadoop来执行的，spark只负责任务的提交。
参考网址
遇到此种情况

a. 首先检查All application的YARN页面

看running application是否是该application，如果不是的话，使用yarn application -kill "applicationID"把之前的application kill掉。

b. 检查ResourceManager日志

检查ResourceManager日志，位于[HADOOP_HOME]/logs/yarn-ubuntu-resourcemanager-master.log中，若发现nodemanager并未分配到资源
参考网址
修改每台NodeManager上的yarn-site.xml：
修改

yarn.nodemanager.aux-services
mapreduce_shuffle,spark_shuffle

增加

yarn.nodemanager.aux-services.spark_shuffle.class
org.apache.spark.network.yarn.YarnShuffleService

spark.shuffle.service.port
7337

将$SPARK_HOME/lib/spark-1.6.0-yarn-shuffle.jar拷贝到每台NodeManager的${HADOOP_HOME}/share/hadoop/yarn/lib/下。
重启所有NodeManagers。

2.slave处于unhealthy状态

观察All Application的yarn界面发现有一个slave提示“unhealthy”状态。NodeHealthReport报告如下：
1/1 local-dirs are bad: /tmp/hadoop-hduser/nm-local-dir; 1/1 log-dirs are bad: /usr/local/hadoop/logs/userlogs
测试过程中YARN Node变成Unhealthy了，后来定位到硬盘空间不够。通过查找大于100M的文件时发现有N多个spark-assembly-1.6.0-SNAPSHOT-hadoop2.6.0-cdh5.3.1.jar包，大小为170多M，
每提交一个application到yarn上执行，就会上传一个assembly包，application个数一多，磁盘就占用了N多空间。
解决方案：
引起local-dirs are bad的最常见原因是由于节点上的磁盘使用率超出了max-disk-utilization-per-disk-percentage（默认值90.0%）。
清理不健康节点上的磁盘空间或者降低参数设置的阈值：
直接在yarn-site.xml下添加如下：
yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 98.5
因为当没有磁盘空间，或因为权限问题，会导致作业失败，所以不要禁用磁盘检查。更详细的信息可以参考https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeManager.html#Disk_Checker

3. Yarn的一些默认设置

yarn-default.xml

4. HDFS block丢失过多进入安全模式（safe mode）

内存不足等原因导致dataNode丢失超过设置的丢失百分比，系统自动进入安全模式
解决办法：
在master执行如下命令：
步骤 1 执行命令退出安全模式：hadoop dfsadmin -safemode leave
步骤 2 执行健康检查，删除损坏掉的block。 hdfs fsck / -delete

注意: 这种方式会出现数据丢失，损坏的block会被删掉

推荐阅读

function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
function
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
stream
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
controller
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
plugins
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
function
Amoeba 优化 MySQL 读写分离性能

Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具，Amoeba 能够高效地处理应用程序的请求，并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例，从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力，还有效减少了主数据库的负担，确保了数据的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-08 19:19:47
get
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
stream
Spring框架的核心组件与架构解析

Spring框架的核心组件与架构解析 ... [详细]

蜡笔小新 2024-11-06 14:16:03
bit
Hibernate实战笔记14：深入解析反向工程技术

在处理遗留数据库的映射时，反向工程是一个重要的初始步骤。由于实体模式已经在数据库系统中存在，Hibernate 提供了自动化工具来简化这一过程，帮助开发人员快速生成持久化类和映射文件。通过反向工程，可以显著提高开发效率并减少手动配置的错误。此外，该工具还支持对现有数据库结构进行分析，自动生成符合 Hibernate 规范的配置文件，从而加速项目的启动和开发周期。 ... [详细]

蜡笔小新 2024-11-04 18:29:37
bit
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
bit
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
format
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
function
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
function
系统数据实体验证异常：多个实体验证失败的错误处理与分析

在使用MVC和EF框架进行数据保存时，遇到了 `System.Data.Entity.Validation.DbEntityValidationException` 错误，表明存在一个或多个实体验证失败的情况。本文详细分析了该错误的成因，并提出了有效的处理方法，包括检查实体属性的约束条件、调试日志的使用以及优化数据验证逻辑，以确保数据的一致性和完整性。 ... [详细]

蜡笔小新 2024-11-11 16:54:45
controller
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30

传闻中的张先生

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章