当前位置: 开发笔记 > 后端 > 正文

SLA和运维指标运营

作者：捕风的默小墨 | 来源：互联网 | 2023-08-17 12:23

1，SLASLA是Service-LevelAgreement的缩写，意思是服务等级协议，一般是协议双方做的彼此承诺，放在运

1&＃xff0c;SLA
SLA是Service-Level Agreement的缩写&＃xff0c;意思是服务等级协议&＃xff0c;一般是协议双方做的彼此承诺&＃xff0c;放在运维的领域&＃xff0c;很重要的一个结果指标就是系统的SLA&＃xff0c;这个是技术向业务做的一个承诺。
系统SLA的定制方法一般有两种&＃xff0c;一种是通过时间维度进行测算&＃xff0c;另外一种是通过用户请求状态进行测算。

时间维度测算
公式&＃xff1a;

PS&＃xff1a;如果年度SLA&＃xff0c;则n&＃61;365

这种计算方式比较常规&＃xff0c;通用&＃xff0c;但真正较真起来&＃xff0c;还是比较麻烦的&＃xff0c;麻烦的地方主要有以下几点&＃xff1a;
1&＃xff09;&＃xff0c;业务中断怎么判断&＃xff0c;须知一个业务完全中断的场景并不多见&＃xff0c;往往是出现部分业务受到影响。
2&＃xff09;&＃xff0c;复杂组织场景下&＃xff0c;如何做责任划分&＃xff0c;比如A部门引发的问题&＃xff0c;但B部门的容错性做的也不好&＃xff0c;这种情况A&＃xff0c;B的各自SLA是多少&＃xff1f;
3&＃xff09;&＃xff0c;时间分片并不是完全等价的&＃xff0c;业务高峰时的一个小时要比业务低谷值钱的多&＃xff0c;如果按照同样的时间去计算&＃xff0c;其实是有失公允的。
鉴于以上种种原因&＃xff0c;在公司SLA实际计算中&＃xff0c;计算公式会变得非常复杂&＃xff0c;比较常见的一种就是根据业务进行时间换算&＃xff0c;公式为&＃xff1a;

PS&＃xff1a;如果年度SLA&＃xff0c;则n&＃61;365

举例&＃xff1a;
如果一天的业务量是一万单&＃xff0c;业务时出现故障高峰&＃xff0c;持续一个小时&＃xff0c;影响1000单&＃xff0c;那么时间业务影响时间换算为&＃xff1a;1000 / 10000 * 24 &＃61; 2.4个小时&＃xff0c;当天的SLA为 90%&＃xff0c;而非95.8%
这种算法的优点是&＃xff1a;
直观&＃xff0c;计算简单&＃xff0c;业务部门容易理解
缺点是&＃xff1a;
这是个结果指标&＃xff0c;改进指向不明确。

用户请求状态测算
公式&＃xff1a;

举例&＃xff1a;
如果一个系统&＃xff0c;用户一天请求量为10000&＃xff0c;其中5XX的请求为1000&＃xff0c;那么当天的SLA为90%
优点&＃xff1a;
可以有针对性的改进&＃xff0c;只要增加访问成功率即可
缺点&＃xff1a;
业务不容易理解&＃xff0c;在什么事请求成功上容易产生分歧

2&＃xff0c;支撑SLA的运维指标
SLA一般我们定义为结果指标&＃xff0c;也就是到最后一刻才知道是否正常&＃xff0c;所以一般需要有一些过程指标进行跟踪&＃xff0c;这里着重介绍一下运维侧指标&＃xff0c;开发侧比较简单&＃xff0c;不做详细介绍

一级指标
一级指标直接承载SLA&＃xff0c;指标好坏&＃xff0c;会对SLA有直接影响
1&＃xff09;&＃xff0c;故障次数&＃xff0c;这个比较理解&＃xff0c;就是有业务影响的异常次数
2&＃xff09;&＃xff0c;故障的平均恢复时间&＃xff0c;为了避免某几个故障处理时间过长&＃xff0c;导致指标不能反映真实情况&＃xff0c;一般会采用P90&＃xff0c;P95的故障平均恢复时间
3&＃xff09;&＃xff0c;N分钟内的异常恢复比例&＃xff0c;N的取值和公司的技术能力和实际情况定&＃xff0c;以故障为例&＃xff0c;一般是30分钟能恢复就已经很不错了
二级指标
二级指标间接承载SLA&＃xff0c;指标好坏会对一级指标有直接影响
1&＃xff09;&＃xff0c;用户报障比&＃xff0c;有多少故障是用户发现的&＃xff0c;而非监控系统发现的
2&＃xff09;&＃xff0c;自动化变更占比&＃xff0c;数字证明&＃xff0c;自动化的变更质量要更好一些
3&＃xff09;&＃xff0c;问题及时解决率&＃xff0c;问题单尤其是故障产生的问题单解决效率
4&＃xff09;&＃xff0c;事件及时解决率&＃xff0c;事件单及时处理效率
5&＃xff09;&＃xff0c;告警及时处理率&＃xff0c;这个是把故障控制在萌芽中的很有效手段
6&＃xff09;&＃xff0c;监控覆盖率&＃xff0c;生产重要的应用和组件的监控覆盖程度

这些指标计算公式比较简单&＃xff0c;这里不赘述。

推荐阅读

server
深入解析Serverless架构模式

本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构，探讨Serverless如何简化应用开发与运维流程，并介绍当前主流的Serverless平台。 ... [详细]

蜡笔小新 2024-12-22 09:08:56
http
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
http
深入解析ESFramework中的AgileTcp组件

本文详细介绍了ESFramework框架中AgileTcp组件的设计与实现。AgileTcp是ESFramework提供的ITcp接口的高效实现，旨在优化TCP通信的性能和结构清晰度。 ... [详细]

蜡笔小新 2024-12-21 13:56:06
api
深入解析RDMA中的队列对（Queue Pair）

本文将详细探讨RDMA架构中的关键组件——队列对（Queue Pair，简称QP），包括其基本概念、硬件与软件实现、QPC的作用、QPN的分配机制以及用户接口和状态机。通过这些内容，读者可以更全面地理解QP在RDMA通信中的重要性和工作原理。 ... [详细]

蜡笔小新 2024-12-21 11:16:36
http
深入探讨Web页面中的锚点交互设计

本文旨在分享Web前端开发中关于网页锚点效果的实现与优化技巧。随着Web技术的发展，越来越多的企业开始重视前端开发的质量和用户体验，而锚点功能作为提升用户浏览体验的重要手段之一，值得深入研究。 ... [详细]

蜡笔小新 2024-12-20 15:39:26
api
理解远程过程调用 (RPC) 的概念与演变

远程过程调用（RPC）是一种允许客户端通过网络请求服务器执行特定功能的技术。它简化了分布式系统的交互，使开发者可以像调用本地函数一样调用远程服务，并获得返回结果。本文将深入探讨RPC的工作原理、发展历程及其在现代技术中的应用。 ... [详细]

蜡笔小新 2024-12-20 15:12:33
server
Linux下NFS客户端配置详解

NFS（Network File System）即网络文件系统，是一种分布式文件系统协议，主要用于Unix和类Unix系统之间的文件共享。本文详细介绍NFS的配置文件/etc/exports和相关服务配置，帮助读者理解如何在Linux环境中配置NFS客户端。 ... [详细]

蜡笔小新 2024-12-18 18:23:35
queue
大型服务端开发中的常见误区

本文探讨了大型服务端开发过程中常见的几个误区，包括异步任务处理不当、日志同步模式使用、网络操作未设置超时、缓存命中率及响应时间未统计、单一缓存模式、分布式缓存加锁不当以及团队管理上的误区，旨在帮助开发者避免这些常见错误。 ... [详细]

蜡笔小新 2024-12-18 14:19:10
queue
丽江客栈选择问题

本文介绍了一道经典的算法题，题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈，并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]

蜡笔小新 2024-12-22 20:15:25
api
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
api
CodeChef 2014 April Challenge - Chef的最终对决：数据结构与整体二分的应用

本题探讨了在大数据结构背景下，如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制，并详细分析了解决方案中的关键步骤。 ... [详细]

蜡笔小新 2024-12-22 19:34:39
server
SQL基础入门与数据库体系概述

本文介绍了数据库体系的基础知识，涵盖关系型数据库（如MySQL）和非关系型数据库（如MongoDB）的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署，帮助读者全面掌握数据库的使用和管理。 ... [详细]

蜡笔小新 2024-12-22 19:17:15
server
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54
server
深入理解K近邻分类算法：机器学习100天系列（26）

本文详细介绍了K近邻分类算法的理论基础，探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分，旨在为读者提供全面且深入的理解。 ... [详细]

蜡笔小新 2024-12-22 18:18:57
server
二维几何变换矩阵解析

本文详细介绍了二维平面上的三种常见几何变换：平移、缩放和旋转。通过引入齐次坐标系，使得这些变换可以通过统一的矩阵乘法实现，从而简化了计算过程。文中不仅提供了理论推导，还附有Python代码示例，帮助读者更好地理解这些概念。 ... [详细]

蜡笔小新 2024-12-22 18:07:54

捕风的默小墨

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章