热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark在Mesos上运行的常见问题及解决方案分析

在Mesos上运行Spark时,常见的问题是Slave节点可能会因应用程序资源消耗过大而耗尽资源。本文分析了这一问题的成因,并提供了多种有效的解决方案,包括资源调度优化、任务分配策略调整以及系统配置改进等,帮助用户提升集群的稳定性和性能。

该文章写于spark1.6.2版本。
由于Fine mode对短任务性能影响过大,所以采用的是Coarse mode方式进行调度。

主要的一些问题:

  1. 1.6版本开始dynamic allocation无法使用

    例如spark-shell之类的程序,空闲时期资源长期占用却无法释放,造成资源利用率低下。

  2. 单个slave上无法启动多个executor

    每个mesos slave上一个application只能启动一个executor。带来的问题是&#xff0c;如果你的slave是<20 cores,100G RAM>&#xff0c;一个需求<20 cores&#xff0c;10G RAM>的application就会将其资源用光&#xff0c;造成90G RAM的浪费。
    具体可参考http://blog.csdn.net/lsshlsw/article/details/51820420

  3. 每个executor使用的cpu数量不可控

    例如某个application申请<5 cores,10G RAM>&#xff0c;如果每个slave只有4 cores,就会造成出现的两个executor,一个是<4 cores,10G RAM>&#xff0c;另一个是<1 core, 10G RAM>。
    因为一个executor运行了过多的task&#xff0c;在内存不足的情况下就非常容易造成OOM,长时间GC等问题。
    具体可参考http://blog.csdn.net/lsshlsw/article/details/51820420

  4. blockmgr没有自动删除
    大量占用磁盘空间

这些问题都在2.0中得到了解决&#xff0c;但是2.0的改动较大&#xff0c;涉及到大量程序的修改&#xff0c;因此可以将如下的改进和bugfix都合到了1.6.2上&#xff0c;重新build一个版本&#xff0c;问题解决。

已有的解决方案&#xff1a;

  • [SPARK-12330][MESOS] Fix mesos coarse mode cleanup
  • [SPARK-13002][MESOS] Send initial request of executors for dyn allocation
  • [SPARK-5095][MESOS] Support launching multiple mesos executors in coarse grained mesos mode.
  • [SPARK-12583][MESOS] Mesos shuffle service: Don’t delete shuffle files before application has stopped
  • [SPARK-13001][CORE][MESOS] Prevent getting offers when reached max cores

修复后的集群济源利用率

修改后的集群负载情况(ganglia):

修改后的集群负载情况(ganglia):


推荐阅读
  • 本文详细探讨了HTML表单中GET和POST请求的区别,包括它们的工作原理、数据传输方式、安全性及适用场景。同时,通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]
  • 本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)的特点,帮助读者理解不同存储方式的优势与局限性。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • PHP 过滤器详解
    本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ... [详细]
  • 深入解析Redis内存对象模型
    本文详细介绍了Redis内存对象模型的关键知识点,包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析,帮助读者全面理解Redis内存管理机制。 ... [详细]
  • 离线安装Grafana Cloudera Manager插件并监控CDH集群
    本文详细介绍如何离线安装Cloudera Manager (CM) 插件,并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]
  • 本文详细介绍了在 Windows 2000 系统中启用 TELNET 服务时需要注意的 NTLM 配置问题,帮助用户解决常见的身份验证失败错误。 ... [详细]
  • 选择适合生产环境的Docker存储驱动
    本文旨在探讨如何在生产环境中选择合适的Docker存储驱动,并详细介绍不同Linux发行版下的配置方法。通过参考官方文档和兼容性矩阵,提供实用的操作指南。 ... [详细]
  • C语言标准及其GCC编译器版本
    编程语言的发展离不开持续的维护和更新。本文将探讨C语言的标准演变以及GCC编译器如何支持这些标准,确保其与时俱进,满足现代开发需求。 ... [详细]
  • 开发笔记:9.八大排序
    开发笔记:9.八大排序 ... [详细]
  • 本文介绍了ArcXML配置文件的分类及其在不同服务中的应用,详细解释了地图配置文件的结构和功能,包括其在Image Service、Feature Service以及ArcMap Server中的使用方法。 ... [详细]
  • 本文详细介绍了 iBatis.NET 中的 Iterate 元素,它用于遍历集合并重复生成每个项目的主体内容。通过该元素,可以实现类似于 foreach 的功能,尽管 iBatis.NET 并未直接提供 foreach 标签。 ... [详细]
  • 阿里云ecs怎么配置php环境,阿里云ecs配置选择 ... [详细]
  • yikesnews第11期:微软Office两个0day和一个提权0day
    点击阅读原文可点击链接根据法国大选被黑客干扰,发送了带漏洞的文档Trumps_Attack_on_Syria_English.docx而此漏洞与ESET&FireEy ... [详细]
  • 主调|大侠_重温C++ ... [详细]
author-avatar
邵小辕_669
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有