热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

SLA和运维指标运营

1,SLASLA是Service-LevelAgreement的缩写,意思是服务等级协议,一般是协议双方做的彼此承诺,放在运

1,SLA
SLA是Service-Level Agreement的缩写,意思是服务等级协议,一般是协议双方做的彼此承诺,放在运维的领域,很重要的一个结果指标就是系统的SLA,这个是技术向业务做的一个承诺。
系统SLA的定制方法一般有两种,一种是通过时间维度进行测算,另外一种是通过用户请求状态进行测算。


  • 时间维度测算
    公式:
    SLA = 1-(业务中断时间)/一年总时间 * 100%
    PS:如果年度SLA,则n=365

    这种计算方式比较常规,通用,但真正较真起来,还是比较麻烦的,麻烦的地方主要有以下几点:
    1),业务中断怎么判断,须知一个业务完全中断的场景并不多见,往往是出现部分业务受到影响。
    2),复杂组织场景下,如何做责任划分,比如A部门引发的问题,但B部门的容错性做的也不好,这种情况A,B的各自SLA是多少?
    3),时间分片并不是完全等价的,业务高峰时的一个小时要比业务低谷值钱的多,如果按照同样的时间去计算,其实是有失公允的。
    鉴于以上种种原因,在公司SLA实际计算中,计算公式会变得非常复杂,比较常见的一种就是根据业务进行时间换算,公式为:
    在这里插入图片描述
    PS:如果年度SLA,则n=365

举例:
如果一天的业务量是一万单,业务时出现故障高峰,持续一个小时,影响1000单,那么时间业务影响时间换算为:1000 / 10000 * 24 = 2.4个小时,当天的SLA为 90%,而非95.8%
这种算法的优点是:
直观,计算简单,业务部门容易理解
缺点是:
这是个结果指标,改进指向不明确。


  • 用户请求状态测算
    公式:
    在这里插入图片描述
    举例:
    如果一个系统,用户一天请求量为10000,其中5XX的请求为1000,那么当天的SLA为90%
    优点:
    可以有针对性的改进,只要增加访问成功率即可
    缺点:
    业务不容易理解,在什么事请求成功上容易产生分歧

2,支撑SLA的运维指标
SLA一般我们定义为结果指标,也就是到最后一刻才知道是否正常,所以一般需要有一些过程指标进行跟踪,这里着重介绍一下运维侧指标,开发侧比较简单,不做详细介绍


  • 一级指标
    一级指标直接承载SLA,指标好坏,会对SLA有直接影响
    1),故障次数,这个比较理解,就是有业务影响的异常次数
    2),故障的平均恢复时间,为了避免某几个故障处理时间过长,导致指标不能反映真实情况,一般会采用P90,P95的故障平均恢复时间
    3),N分钟内的异常恢复比例,N的取值和公司的技术能力和实际情况定,以故障为例,一般是30分钟能恢复就已经很不错了
  • 二级指标
    二级指标间接承载SLA,指标好坏会对一级指标有直接影响
    1),用户报障比,有多少故障是用户发现的,而非监控系统发现的
    2),自动化变更占比,数字证明,自动化的变更质量要更好一些
    3),问题及时解决率,问题单尤其是故障产生的问题单解决效率
    4),事件及时解决率,事件单及时处理效率
    5),告警及时处理率,这个是把故障控制在萌芽中的很有效手段
    6),监控覆盖率,生产重要的应用和组件的监控覆盖程度

这些指标计算公式比较简单,这里不赘述。


推荐阅读
  • 基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装
    一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012,引入SQLServer2012群集提高高可用性,需要对SQLServ ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • MySQL的查询执行流程涉及多个关键组件,包括连接器、查询缓存、分析器和优化器。在服务层,连接器负责建立与客户端的连接,查询缓存用于存储和检索常用查询结果,以提高性能。分析器则解析SQL语句,生成语法树,而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]
  • 从运维繁忙到屡获殊荣:一位CIO的辉煌转型之路
    企业首席信息官(CIO)常常面临一个棘手的问题:如何有效推动公司的数字化转型?尽管数字化转型已成为企业未来发展的重要共识,但如何具体实施依然是许多CIO面临的重大挑战。在日常运营中,企业需要处理大量的业务问题和制定各种发展规划,这使得数字化转型往往被排在较低的优先级。此外,不断涌现的新问题和新规划也常常打乱原有的计划,进一步增加了转型的难度。 ... [详细]
  • 双指针法在链表问题中应用广泛,能够高效解决多种经典问题,如合并两个有序链表、合并多个有序链表、查找倒数第k个节点等。本文将详细介绍这些应用场景及其解决方案。 ... [详细]
  • 本文介绍了如何使用Visual Studio Code、Sublime Text等编辑器批量删除MATLAB代码中的注释和空行,同时提供了一些高级技巧以确保代码的整洁。 ... [详细]
  • LintCode 1218. 计算补数的 JavaScript 算法
    本题要求给定一个正整数,计算其补数。补数是指将该数字的二进制表示逐位取反,然后转换回十进制得到的新数。 ... [详细]
  • 根据经济日报的报道,截至3月15日,包括抖音、今日头条、微信、淘宝、百度、大众点评、微博和小红书在内的多个主流App已经上线了算法关闭功能,用户可以在后台一键关闭“个性化推荐”。 ... [详细]
  • MATLAB实现Sobel边缘检测算法
    图像边缘是指图像中灰度值发生显著变化的区域。Sobel算子是一种常用的边缘检测方法,通过计算图像灰度值的梯度来检测边缘。本文介绍了Sobel算子的基本原理,并提供了基于MATLAB的实现代码。 ... [详细]
  • 本文详细介绍了如何使用OpenSSL自建CA证书的步骤,包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]
  • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
  • 本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文,读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录,从而顺利启动 Hadoop 集群。 ... [详细]
  • Juval Löwy主张,每个类都应被视为服务,这并非是为了让服务无处不在,而是因为微服务是经过深思熟虑后系统分解的自然结果。在他的设计和构建的系统中,这种理念有助于提高模块化、可维护性和扩展性。通过将每个类视为独立的服务,系统能够更好地应对复杂性,实现更灵活的部署和更高的性能。 ... [详细]
  • Oracle ERP系统用户指南:涵盖MRP模块详细操作说明
    《Oracle ERP系统用户指南》详细介绍了MRP模块的操作流程与功能。该手册涵盖了从基础设置到高级应用的全方位指导,旨在帮助用户高效地管理和优化物料需求计划。文档编号、受控状态及生效日期等信息均在手册中明确标注,确保内容的准确性和时效性。编制人忻滢对内容进行了全面审核与确认,以保障用户的使用体验。 ... [详细]
  • PTArchiver工作原理详解与应用分析
    PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制,探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略,实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例,为用户提供了实用的操作建议和技术支持。 ... [详细]
author-avatar
捕风的默小墨
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有