热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

应用云平台的可用性——从新浪SAE看云平台设计

\u0026#xD;一、可用性如何定义\u0026#xD;可用性(availability)是关于系统可供使用时间的表述,以不可用的时间为衡量指标。不可用时间越短&#
\u0026#xD;

一、可用性如何定义

\u0026#xD;
  • 可用性(availability)是关于系统可供使用时间的表述,以不可用的时间为衡量指标。不可用时间越短,可用性越高。通常用n个9来描述。比如4个9的可用性,则是指一年中不可用时间在52分钟内,平均每周不可用时间在1分钟。\u0026#xD;
  • 可靠性(reliablity)是关于系统无故障时间间隔的描述,以发生故障的次数为衡量指标,故障次数越少,可靠性越高\u0026#xD;
  • 可维护性(maintainability)系统发生故障后,恢复的时间来描述。时间越短,可维护性越高。\u0026#xD;

从上面三者关系看出,服务的可靠性、可维护性越高,可用性就越高。这就要求我们在服务开发和管理中做到:提高服务系统的稳定性、改善软件的可管理性和可维护性。

\u0026#xD;

对于SAE云计算平台而言,可用性包含三个方面:SAE自身服务可用性、网络可用性、SAE平台上数据可用性。

\u0026#xD;

二、如何打造高可用的平台

\u0026#xD;

1、软件设计和系统架构

\u0026#xD;

软件是互联网服务的载体。良好的软件对于服务的可用性至关重要。从可用性定义来看,我们在软件设计时,既要考虑可靠性,又要考虑可维护性。

\u0026#xD;

可靠性:这主要体现在软件本身的稳定性和容错性上。软件的稳定性很大程度上取决于代码质量,设计再优良的系统都有可能在实现上质量控制不好而导致失败。软件的容错则主要体现在两个方面:避免单点的高可用设计和自治独立原则。软件系统要做到足够健壮,在发生一些硬件或网络故障时就需要能够做到冗余,继续提供服务。即发生故障的次数足够低

\u0026#xD;

比如某个服务,可能有3个系统单元。每个单元都不应该存在单点,某个服务器宕机不应当导致服务不可用。由于IDC故障的频繁,现在越来越多的设计在考虑当某个IDC不可用时,服务要能够继续提高服务,即跨IDC机房的高可用。另外软件设计时要求足够自治独立,不可过多依赖网络和其他服务单元,对于互联网服务,阻塞是最大的敌人,在一个系统中由于一个微不足道的连接阻塞,而导致整个系统服务不可用,这样的例子实在是太多,所以对于互联网服务,需要牢记:服务要足够自治独立,避免阻塞。

\u0026#xD;

下图简单说明了SAE平台的负载均衡服务是如何避免单点故障的。

\u0026#xD;

a2b6d04dd15238e953533de2d3d090bf.jpg\

\u0026#xD;

可维护性:软件要易于管理维护,能够和现有的运维系统整合,比如说配置管理、日志管理等,避免自立规范。软件的管理维护简单,对于发生故障时缩短恢复时长是有重要帮助的。

\u0026#xD;

2、服务实施时引入破坏测试

\u0026#xD;

好的软件设计开发完成后,在部署环节,一定要实际测试在设计时定下来的目标,比如说避免单点,就需要部署时,实际去破坏。对其他各种容错的处理是否真的到位。我们常见的做法是关机测试、重启检验服务自恢复能力、拔网线等测试,同时观察软件系统是否运行正常。这主要仍然是围绕服务可靠性进行测试。

\u0026#xD;

3、实时的、立体的、可视化监控

\u0026#xD;

一个服务,除了自身软件外,还包含了监控,监控应当视为服务的一部分。服务上线一定是包含了监控。监控是最好的质量保证措施。SAE平台在Alpha版上线时就有了各种监控,监控是平台不可分离的一部分。对于监控,我们积累了一些经验.

\u0026#xD;

实时:要能够及时发现问题、抢在用户的前面发现问题

\u0026#xD;

立体:这要求我们的监控是多层次的立体式的,立体监控最大的好处是快速定位故障原因,有助于快速解决问题。毕竟同样的现象,背后可能有很多种可能。我们的监控包含:系统监控(负载,磁盘IO等)、网络TCP三次握手监控(只要节点之间发生网络关系的都需要监控)、服务自身可用性监控、错误日志趋势监控(当服务的错误数量突然增加时可以捕捉到)

\u0026#xD;

可视化:这是从监控工具的易用性而言。可视化更加有利于发现和分析问题。

\u0026#xD;

自我恢复:这主要体现在服务监控里。服务的监控包含两个部分,首先是根据服务所承诺的各项功能的黑盒测试,这主要是模拟用户发起。其次是服务所在的节点上有部署自我检查自我修复的程序,当自我诊断认为有故障时,程序会尝试多种恢复方法。这极大降低了故障服务时长,有效提高了服务可用的时间。SAE平台底层有这样一套系统在不间断地运行。

\u0026#xD;

报警:监控是为了更快发现问题,能够自动处理的让机器自动完成,不能自动完成的就需要人工处理,这就需要有报警机制。SAE内部开发了一个叫“报警网关”的系统,所有的监控都是直接对接该报警网关。网关的优点是可以做分析、排重,并且是有上下文的报警。我们报警的原则:过犹不及。当运维人员收到过多报警,并且包含了大量的误报时,这样的报警时没有价值的,要坚决抵制。

\u0026#xD;

故障响应:相关人员接到报警后,根据故障级别进行响应。

\u0026#xD;

严重故障,影响到平台的稳定运行,白天要求5分钟内响应,夜间15分钟响应。

\u0026#xD;

次级故障,不影响应用的运行,但可能影响到用户的管理和使用白天要求15分钟响应,夜间要求2小时响应

\u0026#xD;

警告级别故障,这种报警不影响服务,不影响使用,但需要提示有隐患。白天要求1小时,夜间不要求响应,但要求早晨立刻处理,避免故障升级。

\u0026#xD;

快速的故障发现、自我修复和故障响应,是在故障一旦发生后,缩短服务恢复时长,提高服务的可维护性角度而言的,从而间接提高了服务的可用性。对于互联网服务而言,强大的运维团队是服务可用性的重要保障之一!

\u0026#xD;

下图是SAE平台访问量和访问用户的实时监测图表。

\u0026#xD;

473939b369ad2fe661883a6b09689dc0.jpg\

\u0026#xD;

4、针对频繁的系统变更、软件迭代升级

\u0026#xD;

我们知道服务如果没有变更,出问题的概率一般就很低。但是互联网服务变更恰恰是很频繁的,这恰好体现了她的生命力。所以如何在不断变更升级的条件下保证平台的稳定可用显得更为迫切。SAE每周的各种变更升级在十次以上。SAE为更好地保证平台稳定性,我们引入了旁路系统和灰度发布机制。

\u0026#xD;

旁路系统:用户的请求进入负载均衡后,除了会走正常流程外,同时会引导到另外一个环境,该环境和生产环境非常相近,除了规模外。我们引入旁路系统的原因在于配置变更、软件升级等很频繁,在生产环节每一个变更不管多么简单都是有风险的。其次是系统级别的软件更新升级等,为了尽可能多尽可能早地发现一些隐藏的很深的bug,旁路系统是一个不错的方案。因为旁路系统足够真实。并且还可以在旁路环境进行一些压力测试,毕竟线上做压力测试危险太大,线下做测试,测试数据不够真实。在旁路系统变更完成后,如何判断变更是安全的,是一件相对比较有挑战的事情。我们的经验往往是观察变更涉及的服务,错误日志比例是不是有明显上升。如果变更后服务无法使用或者挂了,问题就更加明显。

\u0026#xD;

灰度发布:旁路系统虽然足够真实,但毕竟不是完全真实的生产环境,变更有没有对应用造成影响,有时需要用户反馈来配合。尽管旁路系统可以发现99%的问题,但不可否认仍然有可能有隐藏的很深的我们无法发现。这就需要引入灰度发布。所谓灰度发布,就是在升级时,只引导部分应用来使用,通过逐步增加使用的应用数量同时观察用户的反馈,来验证变更是否存在问题。但是对于有状态的服务,灰度发布实施比较困难。

\u0026#xD;

旁路系统和灰度发布都是从提高平台服务可靠性角度出发,对变更做好风险控制,尽量降低故障发生的次数。

\u0026#xD;

5、数据可用性

\u0026#xD;

数据可用性主要体现在数据冗余上。SAE平台数据类的服务包括MySQL、KVDB和Storage,服务都提供有热备和冷备,并可以从冷备中恢复14天内的数据。数据自助恢复功能目前正在开发中,目前可以提供收费的人工数据恢复服务。

\u0026#xD;

6、多线路接入保证网络访问质量

\u0026#xD;

由于南北电信互联互通问题,用户一旦跨网访问,往往不可到达或由于电信运营商网络故障或IDC级别的故障,用户到IDC之间的网络不可到达,或丢包率很高。

\u0026#xD;

网络可用性更多的会依赖电信运营商的服务能力。但对于互联网服务而言,必须要解决这样的困难才可以真正提供好的服务。

\u0026#xD;

目前SAE网络接入支持电信、联通、教育、移动等,真正实现了国内大的运营商网络的覆盖,这在国内是很罕见的。用户不须操心网络接入的复杂问题,并且在某些链路访问质量出现问题时,SAE平台通过云监控能够及时发现,并会做出调整。最大限度保证全国范围内的用户的网络可到达。

\u0026#xD;

下图展示了SAE是如何保证多路访问质量的。

\u0026#xD;

22bf1b31ac84f34e2ea2622ca0833101.jpg\

\u0026#xD;

三、对于云计算的用户的建议

\u0026#xD;

尽管国外云计算的使用已经非常普及,但不可否认,国内的云计算市场尚处于起步阶段。这固然和国内企业和开发者的认知和接受度有关,但也和国内云计算发展不够务实,不贴近用户需求脱离不了干系。

\u0026#xD;

客户在选择是否使用云计算时,往往有很多担忧,总觉得没有放在自己的手里放心。但我们从实践中也发现,大部分企业的网站,其可用性可到达率都不算高,虽然没有专业机构提供的中国网站可用性这样的报告。如果完全自己去实现自己的系统,上面遇到的大部分可用性挑战,相信都会遇到,而且未必能做得更好。所以如果云计算足够成熟,建议采用云计算,让您的企业更“轻”点,服务更可靠点。

\u0026#xD;

SAE平台目前的可用性已经可以达到99.95%,我们正在朝99.99%的目标努力,SAE对于更高可用性的追求是没有止境的。

\u0026#xD;

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。以后有机会再谈谈云计算可用性设计有哪些特别的地方。

\u0026#xD;

感谢金明对本文的审校。

\u0026#xD;

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。


推荐阅读
  • 从Oracle安全移植到国产达梦数据库的DBA实践与攻略
    随着我国对信息安全和自主可控技术的重视,国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛,保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略,包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略,DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]
  • 集成电路企业在进行跨隔离网数据交换时面临着安全性问题,传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例,介绍了如何通过丰富的审批流程来满足企业的合规要求,保障数据交换的安全性。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 近期,某用户在重启RAC一个节点的数据库实例时,发现启动速度非常慢。同时业务部门反馈连接RAC存活节点的业务也受影响。通过对日志的分析, ... [详细]
author-avatar
梦幻死灵_791
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有