Amazon旗下的AWS作为全球最大的云计算服务提供商,承担了众多常规网站的运行和大量的云计算业务。
而此前AWS却发生了严重的宕机事故致使大量网站和服务无法正常运营,目前AWS已经发布详细的报告。
AWS称本次宕机事故的主要原因在于某个团队成员执行命令时的操作失误,将大量服务器直接给删除掉了。
原本该成员准备执行某个常规的脚本用于移除AWS S3子系统中部分通过计费处理的服务器,但由于操作失误执行了某个不正确的命令。
这个不正确的命令除了将应该移除的服务器删除外,还把位于AWS S3的某个索引子系统的服务器删除了。
遗憾的是这些服务器包含大量的元数据和全区的AWS S3的对象定位信息,于是直接发生了大规模宕机事故。
针对这次事故AWS也已经在商讨如何更安全的进行数据操作,该公司认为使用的工具删除速度实在太快了。
因此AWS已经调整这个用于移除服务器的工具,后续将会以更加缓慢的速度来慢慢地移除掉大量的服务器。
另外AWS也在检查其他类型的工具防止出现类似情况,同时会提高子系统宕机后的备份恢复时间减少损失。
详细的宕机事故内容报告请访问AWS官网网站:https://aws.amazon.com/cn/message/41926/