热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

SLA和运维指标运营

1,SLASLA是Service-LevelAgreement的缩写,意思是服务等级协议,一般是协议双方做的彼此承诺,放在运

1,SLA
SLA是Service-Level Agreement的缩写,意思是服务等级协议,一般是协议双方做的彼此承诺,放在运维的领域,很重要的一个结果指标就是系统的SLA,这个是技术向业务做的一个承诺。
系统SLA的定制方法一般有两种,一种是通过时间维度进行测算,另外一种是通过用户请求状态进行测算。


  • 时间维度测算
    公式:
    SLA = 1-(业务中断时间)/一年总时间 * 100%
    PS:如果年度SLA,则n=365

    这种计算方式比较常规,通用,但真正较真起来,还是比较麻烦的,麻烦的地方主要有以下几点:
    1),业务中断怎么判断,须知一个业务完全中断的场景并不多见,往往是出现部分业务受到影响。
    2),复杂组织场景下,如何做责任划分,比如A部门引发的问题,但B部门的容错性做的也不好,这种情况A,B的各自SLA是多少?
    3),时间分片并不是完全等价的,业务高峰时的一个小时要比业务低谷值钱的多,如果按照同样的时间去计算,其实是有失公允的。
    鉴于以上种种原因,在公司SLA实际计算中,计算公式会变得非常复杂,比较常见的一种就是根据业务进行时间换算,公式为:
    在这里插入图片描述
    PS:如果年度SLA,则n=365

举例:
如果一天的业务量是一万单,业务时出现故障高峰,持续一个小时,影响1000单,那么时间业务影响时间换算为:1000 / 10000 * 24 = 2.4个小时,当天的SLA为 90%,而非95.8%
这种算法的优点是:
直观,计算简单,业务部门容易理解
缺点是:
这是个结果指标,改进指向不明确。


  • 用户请求状态测算
    公式:
    在这里插入图片描述
    举例:
    如果一个系统,用户一天请求量为10000,其中5XX的请求为1000,那么当天的SLA为90%
    优点:
    可以有针对性的改进,只要增加访问成功率即可
    缺点:
    业务不容易理解,在什么事请求成功上容易产生分歧

2,支撑SLA的运维指标
SLA一般我们定义为结果指标,也就是到最后一刻才知道是否正常,所以一般需要有一些过程指标进行跟踪,这里着重介绍一下运维侧指标,开发侧比较简单,不做详细介绍


  • 一级指标
    一级指标直接承载SLA,指标好坏,会对SLA有直接影响
    1),故障次数,这个比较理解,就是有业务影响的异常次数
    2),故障的平均恢复时间,为了避免某几个故障处理时间过长,导致指标不能反映真实情况,一般会采用P90,P95的故障平均恢复时间
    3),N分钟内的异常恢复比例,N的取值和公司的技术能力和实际情况定,以故障为例,一般是30分钟能恢复就已经很不错了
  • 二级指标
    二级指标间接承载SLA,指标好坏会对一级指标有直接影响
    1),用户报障比,有多少故障是用户发现的,而非监控系统发现的
    2),自动化变更占比,数字证明,自动化的变更质量要更好一些
    3),问题及时解决率,问题单尤其是故障产生的问题单解决效率
    4),事件及时解决率,事件单及时处理效率
    5),告警及时处理率,这个是把故障控制在萌芽中的很有效手段
    6),监控覆盖率,生产重要的应用和组件的监控覆盖程度

这些指标计算公式比较简单,这里不赘述。


推荐阅读
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 深入解析ESFramework中的AgileTcp组件
    本文详细介绍了ESFramework框架中AgileTcp组件的设计与实现。AgileTcp是ESFramework提供的ITcp接口的高效实现,旨在优化TCP通信的性能和结构清晰度。 ... [详细]
  • 深入解析RDMA中的队列对(Queue Pair)
    本文将详细探讨RDMA架构中的关键组件——队列对(Queue Pair,简称QP),包括其基本概念、硬件与软件实现、QPC的作用、QPN的分配机制以及用户接口和状态机。通过这些内容,读者可以更全面地理解QP在RDMA通信中的重要性和工作原理。 ... [详细]
  • 深入探讨Web页面中的锚点交互设计
    本文旨在分享Web前端开发中关于网页锚点效果的实现与优化技巧。随着Web技术的发展,越来越多的企业开始重视前端开发的质量和用户体验,而锚点功能作为提升用户浏览体验的重要手段之一,值得深入研究。 ... [详细]
  • 远程过程调用(RPC)是一种允许客户端通过网络请求服务器执行特定功能的技术。它简化了分布式系统的交互,使开发者可以像调用本地函数一样调用远程服务,并获得返回结果。本文将深入探讨RPC的工作原理、发展历程及其在现代技术中的应用。 ... [详细]
  • NFS(Network File System)即网络文件系统,是一种分布式文件系统协议,主要用于Unix和类Unix系统之间的文件共享。本文详细介绍NFS的配置文件/etc/exports和相关服务配置,帮助读者理解如何在Linux环境中配置NFS客户端。 ... [详细]
  • 本文探讨了大型服务端开发过程中常见的几个误区,包括异步任务处理不当、日志同步模式使用、网络操作未设置超时、缓存命中率及响应时间未统计、单一缓存模式、分布式缓存加锁不当以及团队管理上的误区,旨在帮助开发者避免这些常见错误。 ... [详细]
  • 丽江客栈选择问题
    本文介绍了一道经典的算法题,题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈,并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]
  • 本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机(MLP)网络,涵盖回归和分类任务。通过具体示例和代码实现,帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]
  • 本题探讨了在大数据结构背景下,如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制,并详细分析了解决方案中的关键步骤。 ... [详细]
  • 本文介绍了数据库体系的基础知识,涵盖关系型数据库(如MySQL)和非关系型数据库(如MongoDB)的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署,帮助读者全面掌握数据库的使用和管理。 ... [详细]
  • 智能车间调度研究进展
    本文综述了基于强化学习的智能车间调度策略,探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段,解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]
  • 深入理解K近邻分类算法:机器学习100天系列(26)
    本文详细介绍了K近邻分类算法的理论基础,探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分,旨在为读者提供全面且深入的理解。 ... [详细]
  • 二维几何变换矩阵解析
    本文详细介绍了二维平面上的三种常见几何变换:平移、缩放和旋转。通过引入齐次坐标系,使得这些变换可以通过统一的矩阵乘法实现,从而简化了计算过程。文中不仅提供了理论推导,还附有Python代码示例,帮助读者更好地理解这些概念。 ... [详细]
author-avatar
捕风的默小墨
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有