当前位置: 开发笔记 > 编程语言 > 正文

高可用（二）

作者：手机用户2502872807 | 来源：互联网 | 2023-08-20 09:48

可用性的计算公式：%availability（TotalElapsedTimes－SumofInoperativeTimes࿰

可用性的计算公式：

%availability=（Total Elapsed Times－Sum of Inoperative Times）/ Total Elapsed Time

可用性99.999%，意味着在一年365天，系统停止服务时间为5分15秒

total times= 365*24*36000=31536000
inoperative times=31536000*0.001%=315.36

高可用方法论

扩展
扩展是最常见的提升系统可靠性的方法，系统的扩展可以避免单点故障，即一个节点出现了问题造成整个系统无法正常工作。换一个角度讲，一个容易扩展的系统，能够通过扩展来成倍的提升系统能力，轻松应对系统访问量的提升。

一般地，扩展可以分为垂直扩展和水平扩展：

垂直扩展：是在同一逻辑单元里添加资源从而满足系统处理能力上升的需求。比如，当机器内存不够时，我们可以帮机器增加内存，或者数据存不下时，我们为机器挂载新的磁盘。
垂直扩展能够提升系统处理能力，但不能解决单点故障问题。
优点：扩展简单。
缺点：扩展能力有限。
水平扩展：通过增加一个或多个逻辑单元，并使得它们像整体一样的工作。
水平扩展，通过冗余部署解决了单点故障，同时又提升了系统处理能力。
优点：扩展能力强。
缺点：增加系统复杂度，维护成本高，系统需要是无状态的、可分布式的。
可扩展性系数 scalability factor 通常用来衡量一个系统的扩展能力，当增加 1 单元的资源时，系统处理能力只增加了 0.95 单元，那么可扩展性系数就是 95%。当系统在持续的扩展中，可扩展系数始终保持不变，我们就称这种扩展是线性可扩展。

在实际应用中，水平扩展最常见：

通常我们在部署应用服务器的时候，都会部署多台，然后使用 nginx 来做负载均衡，nginx 使用心跳机制来检测服务器的正常与否，无响应的服务就从集群中剔除。这样的集群中每台服务器的角色是相同的，同时提供一样的服务。
在数据库的部署中，为了防止单点故障，一般会使用一主多从，通常写操作只发生在主库。不同数据库之间角色不同。当主机宕机时，一台从库可以自动切换为主机提供服务。
隔离
隔离，是对什么进行隔离呢？是对系统、业务所占有的资源进行隔离，限制某个业务对资源的占用数量，避免一个业务占用整个系统资源，对其他业务造成影响。

隔离级别按粒度从小到大，可以分为线程池隔离、进程隔离、模块隔离、应用隔离、机房隔离。在数据库的使用中，还经常用到读写分离。

线程池隔离：不同的业务使用不同的线程池，避免低优先级的任务阻塞高优先级的任务。或者高优先级的任务过多，导致低优先级任务永远不会执行。
进程隔离：Linux 中有用于进程资源隔离的 Linux CGroup，通过物理限制的方式为进程间资源控制提供了简单的实现方式，为 Linux Container 技术、虚拟化技术的发展奠定了技术基础。在工作中的实际应用，可以看看这篇文章：日志压缩资源消耗优化: Linux CGroup 的使用。
模块隔离、应用隔离：很多线上故障的发生源于代码修改后，测试不到位导致。按照代码或业务的易变程度来划分模块或应用，把变化较少的划分到一个模块或应用中，变化较多的划分到另一个模块或应用中。减少代码修改影响的范围，也就减少了测试的工作量，减少了故障出现的概率。
机房隔离：主要是为了避免单个机房网络问题或断电吧。
读写分离：一方面，将对实时性要求不高的读操作，放到 DB 从库上执行，有利于减轻 DB 主库的压力。另一方面，将一些耗时离线业务 sql 放到 DB 从库上执行，能够减少慢 sql 对 DB 主库的影响，保证线上业务的稳定可靠。
解耦
在软件工程中，对象之间的耦合度就是对象之间的依赖性。对象之间的耦合越高，维护成本越高，因此对象的设计应使模块之间的耦合度尽量小。在软件架构设计中，模块之间的解耦或者说松耦合有两种，假设有两个模块A、B，A依赖B：

第一种是，模块A和模块B只通过接口交互，只要接口设计不变，那么模块B内部细节的变化不影响模块A对模块B服务能力的消费。
面向接口设计下真正实现了将接口契约的定义和接口的实现彻底分离，实现变化不影响到接口契约，自然不影响到基于接口的交互。
模块A和B之间的松耦合，主要通过合理的模块划分、接口设计来完成。如果出现循环依赖，可以将模块A、B共同依赖的部分移除到另一个模块C中，将A、B之间的相互依赖，转换为A、B同时对C的依赖。
第二种是，将同步调用转换成异步消息交互。
比如在买机票系统中，机票支付完成后需要通知出票系统出票、代金券系统发券。如果使用同步调用，那么出票系统、代金券系统宕机是会影响到机票支付系统，如果另一个系统比如专车系统也想要在机票支付完成后向用户推荐专车服务，那么同步调用模式下机票支付系统就需要为此而改动，容易影响核心支付业务的可靠性。
如果我们将同步调用替换成异步消息，机票支付系统发送机票支付成功的消息到消息中间件，出票系统、代金券系统从消息中间件订阅消息。这样一来，出票系统、代金券系统的宕机也就不会对机票支付系统造成任何影响了。专车系统想要知道机票支付完成这一事件，也只需要从消息中间件订阅消息即可，机票支付系统完全不需要做任何改动。
异步消息解耦，适合那些信息流单向流动（类似发布-订阅这样的），实时性要求不高的系统。常见的开源消息队列框架有：Kafka、RabbitMQ、RocketMQ。
限流
为什么要做限流呢？举一个生活中的例子，大家早上上班都要挤地铁吧，地铁站在早高峰的时候经常要限制客流，为什么呢？有人会觉得这是人为添堵。真是这样吗？如果不执行客流控制，大家想想会是什么场景呢？站台到处都挤满了乘客，就算你使出洪荒之力也不一定能顺利上车，且非常容易引发肢体碰撞，造成冲突。有了客流控制之后，地铁站才能变得秩序井然，大家才能安全上地铁。

一个系统的处理能力是有上限的，当服务请求量超过处理能力，通常会引起排队，造成响应时间迅速提升。如果对服务占用的资源量没有约束，还可能因为系统资源占用过多而宕机。因此，为了保证系统在遭遇突发流量时，能够正常运行，需要为你的服务加上限流。

常见的限流算法有：漏桶、令牌桶、滑动窗口计数。

分类
按照计数范围，可以分为：单机限流、全局限流。单机限流，一般是为了应对突发流量，而全局限流，通常是为了给有限资源进行流量配额。

按照计数周期，可以分为：QPS、并发（连接数）。

按照阈值设定方式的不同，可以分为：固定阈值、动态阈值。

漏桶算法
下面这张图，是漏桶的示意图。漏桶算法思路很简单，水（请求）先进入到漏桶里，漏桶以一定的速度出水，当水流入速度过大时，会直接溢出，可以看出漏桶算法能强行限制数据的传输速率。漏桶算法(Leaky Bucket)是网络世界中流量整形（Traffic Shaping）或速率限制（Rate Limiting）时经常使用的一种算法，它的主要目的是控制数据注入到网络的速率，平滑网络上的突发流量。

漏桶算法可以使用 Redis 队列来实现，生产者发送消息前先检查队列长度是否超过阈值，超过阈值则丢弃消息，否则发送消息到 Redis 队列中；消费者以固定速率从 Redis 队列中取消息。Redis 队列在这里起到了一个缓冲池的作用，起到削峰填谷、流量整形的作用。

令牌桶算法
对于很多应用场景来说，除了要求能够限制数据的平均传输速率外，还要求允许某种程度的突发传输。这时候漏桶算法可能就不合适了，令牌桶算法更为适合。令牌桶算法的原理是系统会以一个恒定的速度往桶里放入令牌，而如果请求需要被处理，则需要先从桶里获取一个令牌，当桶里没有令牌可取时，则拒绝服务。桶里能够存放令牌的最高数量，就是允许的突发传输量。

Guava 中的限流工具 RateLimiter，其原理就是令牌桶算法。

滑动窗口计数法
计数法是限流算法里最容易理解的一种，该方法统计最近一段时间的请求量，如果超过一定的阈值，就开始限流。在 TCP 网络协议中，也用到了滑动窗口来限制数据传输速率。

滑动窗口计数有两个关键的因素：窗口时长、滚动时间间隔。滚动时间间隔一般等于上图中的一个桶 bucket，窗口时长除以滚动时间间隔，就是一个窗口所包含的 bucket 数目。

滑动窗口计数算法的实现，可以查看这篇文章：降级熔断框架 Hystrix 源码解析：滑动窗口统计。

动态限流
一般情况下的限流，都需要我们手动设定限流阈值，不仅繁琐，而且容易因系统的发布升级而过时。为此，我们考虑根据系统负载来动态决定是否限流，动态计算限流阈值。可以参考的系统负载参数有：Load、CPU、接口响应时间等。

详细内容请看：基于系统负载的动态限流 dynamic-limiter。

降级
业务降级，是指牺牲非核心的业务功能，保证核心功能的稳定运行。简单来说，要实现优雅的业务降级，需要将功能实现拆分到相对独立的不同代码单元，分优先级进行隔离。在后台通过开关控制，降级部分非主流程的业务功能，减轻系统依赖和性能损耗，从而提升集群的整体吞吐率。

降级的重点是：业务之间有优先级之分。降级的典型应用是：电商活动期间关闭非核心服务，保证核心买买买业务的正常运行。

业务降级通常需要通过开关工作，开关一般做成配置放在专门的配置系统，配置的修改最好能够实时生效，毕竟要是还得修改代码发布那就太 low 了。开源的配置系统有阿里的diamond、携程的Apollo、百度的disconf。

降级往往需要兜底方案的配合，比如系统不可用的时候，对用户进行提示，安抚用户。提示虽然不起眼，但是能够有效的提升用户体验。

熔断
谈到熔断，不得不提经典的电力系统中的保险丝，当负载过大，或者电路发生故障时，电流会不断升高，为防止升高的电流有可能损坏电路中的某些重要器件或贵重器件，烧毁电路甚至造成火灾。保险丝会在电流异常升高到一定的高度和热度的时候，自身熔断切断电流，从而起到保护电路安全运行的作用。

同样，在分布式系统中，如果调用的远程服务或者资源由于某种原因无法使用时，没有这种过载保护，就会导致请求阻塞在服务器上等待从而耗尽服务器资源。很多时候刚开始可能只是系统出现了局部的、小规模的故障，然而由于种种原因，故障影响的范围越来越大，最终导致了全局性的后果。而这种过载保护就是大家俗称的熔断器(Circuit Breaker)。

下面这张图，就是熔断器的基本原理，包含三个状态：

服务正常运行时的 Closed 状态，当服务调用失败量或失败率达到阈值时，熔断器进入 Open 状态
在 Open 状态，服务调用不会真正去请求外部资源，会快速失败。
当进入 Open 状态一段时间后，进入 Half-Open状态，需要去尝试调用几次服务，检查故障的服务是否恢复。如果成功则熔断器关闭，如果失败，则再次进入 Open 状态。

目前比较流行的降级熔断框架，是由 Netflix 开源的 Hystrix 框架。

发布相关
模块级自动化测试**
众所周知，一个项目上线前需要经历严格的测试过程，但是随着业务不断迭代、系统日益复杂，研发工程师、产品经理、测试工程师等都在测试过程中投入了大量精力，而一个个线上故障却表明测试效果并不是那么完美。究其原因，目前的测试工作主要存在两方面问题：

测试范围难以界定：随着业务逻辑的不断迭代、系统的不断拆分与细化，精确评估项目改动的影响范围变得越来越困难，从而很难梳理出覆盖全面的测试点。
case验证成本过高：验证一个case需要构造测试场景，包括数据的准备和运行环境的准备，当case量较大或者存在一些涉及多个系统模块且触发条件复杂的case时，这一过程也将花费大量的时间。
解决上述问题可以使用模块级自动化测试。具体方案是：针对某一模块，收集模块线上的输入、输出、运行时环境等信息，在离线测试环境通过数据mock模块线上场景，回放收集的线上输入，相同的输入比较测试场景与线上收集的输出作为测试结果。

模块级自动化测试通过简化复杂系统中的不变因素（mock），将系统的测试边界收拢到改动模块，将复杂系统的整体测试转化为改动模块的单元测试。主要适用于系统业务回归，对系统内部重构场景尤其适用。

具体如何收集线上数据呢？有两种方法：

AOP：面向切面编程，动态地织入代码，对原有代码的侵入性较小。
埋点：很多公司都开发了一下基础组件，可以在这些基础组件中嵌入数据收集的代码。
更多细节，可以查看下面参考文献中的文章：Qunar 自动化测试框架 ARES。

灰度发布 & 回滚
单点和发布是系统高可用最大的敌人。一般在线上出现故障后，第一个要考虑的就是刚刚有没有代码发布、配置发布，如果有的话就先回滚。线上故障最重要的是快速恢复，如果等你细细看代码找到问题，没准儿半天就过去了。

为了减少发布引起问题的严重程度，通常会使用灰度发布策略。灰度发布是速度与安全性作为妥协。他是发布众多保险的最后一道，而不是唯一的一道。在这篇文章来自 Google 的高可用架构理念与实践里提到：

做灰度发布，如果是匀速的，说明没有理解灰度发布的意义。一般来说阶段选择上从 1% -> 10% -> 100% 的指数型增长。这个阶段，是根据具体业务不同按维度去细分的。
这里面的重点在于 1% 并不全是随机选择的，而是根据业务特点、数据特点选择的一批有极强的代表性的实例，去做灰度发布的小白鼠。甚至于每次发布的第一阶段用户(我们叫 Canary/金丝雀)，根据每次发布的特点不同，是人为挑选的。

发布之前必须制定详细的回滚步骤，回滚是解决发布引起的故障的最快的方法。

故障演练
为什么要做故障演练呢？就跟在测试业务功能时，不仅要测试正常的请求能否正确处理，也要测试异常的请求能否得到适当的处理一样。站在全局的角度看，我们也希望保证某个机器或某个服务挂掉时，尽量不影响系统整体的可用性，技术上要靠无状态服务、冗余部署、降级等。实际中如何测试这样的异常情况呢？

Netflix 开源了一个工具 Chaos Monkey，这是一套用来故意把服务器搞下线的软件，可以用来测试系统的健壮性和恢复能力。

自动化运维-故障自愈
在文章阿里如何做到百万量级硬件故障自愈里，介绍了如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建，真正在影响业务之前实现硬件故障自动闭环策略，对于常见的硬件故障无需人工干预即可自动闭环解决。

事件系统
AWS 有一个 CloudTrail 系统，专门记录重大活动事件，可以简化安全性分析、资源更改跟踪和问题排查工作。系统发布、配置变更是引发故障的一大因素，微服务化的系统架构里，有时某个底层系统的变更，引起反映、出现故障的往往是上层直接面对用户的系统。有了事件系统，出现故障后，可以快速查看在故障时间点，相关联系统是否有变更，是否是引起故障的根本原因？

事件系统的出现，可以帮助应用开发者快速定位“底层系统变更引发上层系统异常”这一类故障的根本原因。

其他**
设置超时：请求对外接口的时候，需要设置合理的超时时间，避免外部接口挂掉时，阻塞整个系统。
失败重试：失败重试能够提高成功率，但是也会造成响应时间变慢，服务提供方压力倍增。具体要不要重试要根据具体情况决定：对响应时间有要求吗？接口失败率如何？重试会不会造成雪崩？

总结

推荐阅读

get
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
c语言
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
php
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
range
Oracle 11g 非交互式静默部署指南

本文详细介绍了使用响应文件在静默模式下安装和配置Oracle 11g的方法。硬件要求包括：内存至少1GB，具体可通过命令`grep -i memtotal /proc/meminfo`进行检查。此外，还提供了详细的步骤和注意事项，确保安装过程顺利进行。 ... [详细]

蜡笔小新 2024-10-31 18:23:35
node.js
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
数组
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
数组
openGauss行存储核心架构及其页面组织详解

行存储的核心架构和页面组织是实现DML操作、可见性判断及多种管理功能的基础。作为基于磁盘的存储引擎，行存储在设计上采用了段页式结构，以优化数据的存储和访问效率。这种设计不仅确保了数据的高效存储，还为行存储的各种高级功能提供了坚实的技术支持。 ... [详细]

蜡笔小新 2024-10-31 17:10:21
数组
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
eval
MySQL 源代码解析：二进制日志崩溃恢复机制深入探讨

本文详细解析了 MySQL 5.7.20 版本中二进制日志（binlog）崩溃恢复机制的工作流程。假设使用 InnoDB 存储引擎，并且启用了 `sync_binlog=1` 配置，文章深入探讨了在系统崩溃后如何通过 binlog 进行数据恢复，确保数据的一致性和完整性。 ... [详细]

蜡笔小新 2024-10-31 08:44:53
python
在Tableau中进行多表关联后统计时遇到的常见问题及解决方法

在使用Tableau进行多表关联统计时，常遇到数据不匹配、重复记录等问题。例如，在处理员工信息表时，若员工ID未正确关联，可能导致薪资统计错误。本文将详细探讨这些问题的成因，并提供有效的解决方案，如利用Tableau的数据清理工具和高级连接功能，确保数据准确性和完整性。 ... [详细]

蜡笔小新 2024-10-30 16:29:27
md5
深入解析：RKHunter与AIDE在入侵检测中的应用与优势

本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析，详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果，为安全管理人员提供了有效的防护策略建议。 ... [详细]

蜡笔小新 2024-10-30 11:50:20
ip
优化Oracle数据库日志功能的关闭方法与实践

在优化Oracle数据库日志功能的过程中，关闭不必要的日志记录是一项重要任务。本文探讨了Oracle 11g中日志路径的配置和管理，特别是针对常用的警报日志（alert log）。通过合理配置 `alert_$ORACLE_SID.log` 文件，可以有效减少日志文件的大小和提高系统性能。此外，文章还介绍了如何通过调整参数和使用脚本自动化日志管理，进一步提升数据库的稳定性和维护效率。 ... [详细]

蜡笔小新 2024-10-29 16:52:57
ip
顶尖编程语言，无可匹敌的选择

我常常在想，一个人具备怎样的素质和能力，才称得上高级工程师？估计有不少人会说，“基础过硬、熟练掌握一门编程语言、至少看过一个 ... [详细]

蜡笔小新 2024-10-22 13:09:13
ip
北航OO第三单元总结

JML基础梳理及工具链　　JML的全称是JavaModelinglanguage，即Java建模语言。JML是一种行为接口规格。它为严格的程序设计提供了一套行之有效的方法。通过JML不仅可以 ... [详细]

蜡笔小新 2024-10-19 11:48:54
ip
一文了解消息中间件RabbitMQ

消息中间件---RabbitMQ1消息中间件的作用2.常用的消息中间件3消息中间件RabbitMQ3.1RabbitMQ介绍3.3RabbitMQ的队列模式3.3RabbitMQ的 ... [详细]

蜡笔小新 2024-10-17 09:26:04

手机用户2502872807

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章