热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

高可用_14高可用的数据

篇首语:本文由编程笔记#小编为大家整理,主要介绍了14高可用的数据相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了14 高可用的数据相关的知识,希望对你有一定的参考价值。






在这里插入图片描述



对许多网站而言,数据是其最宝贵的物质资产,硬件可以购买,软件可以重写,但是多年运营积淀下来的各种数据(用户数据、交易数据、商品数据……),代表着历史, 已经成为过往,不能再重来,一旦失去,对网站的打击可以说是毁灭性的,因此可以说, 保护网站的数据就是保护企业的命脉。


不同于高可用的应用和服务,由于数据存储服务器上保存的数据不同,当某台服务 器宕机的时候,数据访问请求不能任意切换到集群中其他的机器上。

保证数据存储高可用的手段主要是数据备份和失效转移机制。数据备份是保证数据 有多个副本,任意副本的失效都不会导致数据的永久丢失,从而实现数据完全的持久化。 而失效转移机制则保证当一个数据副本不可访问时,可以快速切换访问数据的其他副本, 保证系统可用O

关于缓存服务的高可用,在实践中争议很大,一种观点认为缓存已经成为网站数据 服务的重要组成部分,事实上承担了业务中绝大多数的数据读取访问服务,缓存服务失 效可能会导致数据库负载过高而宕机,进而影响整个网站的可用性,因此缓存服务需要 实现和数据存储服务同样的高可用。

另一种观点认为,缓存服务不是数据存储服务,缓存服务器宕机引起缓存数据丢失
导致服务器负载压力过高应该通过其他手段解决,而不是提高缓存服务本身的高可用。

笔者持后一种观点,对于缓存服务器集群中的单机宕机,如果缓存服务器集群规模 较大,那么单机宕机引起的缓存数据丢失比例和数据库负载压力变化都较小,对整个系 统影响也较小。扩大缓存服务器集群规模的一个简单手段就是整个网站共享同一个分布 式缓存集群,单独的应用和产品不需要部署自己的缓存服务器,只需要向共享缓存集群 申请缓存资源即可。并且通过逻辑或物理分区的方式将每个应用的缓存部署在多台服务 器上,任何一台服务器宕机引起的缓存失效都只影响应用缓存数据的一小部分,不会对 应用性能和数据库负载造成太大影响。




1 CAP 原理

在讨论高可用数据服务架构之前,必须先讨论的一个话题是,为了保证数据的高可 用,网站通常会牺牲另一个也很重要的指标:数据一致性。
高可用的数据有如下几个层面的含义。

数据持久性

保证数据可持久存储,在各种情况下都不会岀现数据丢失的问题。为了实现数据的 持久性,不但在写入数据时需要写入持久性存储,还需要将数据备份一个或多个副本, 存放在不同的物理存储设备上,在某个存储故障或灾害发生时,数据不会丢失。

数据可访问性

在多份数据副本分别存放在不同存储设备的情况下,如果一个数据存储设备损坏, 就需要将数据访问切换到另一个数据存储设备上,如果这个过程不能很快完成(终端用 户几乎没有感知),或者在完成过程中需要停止终端用户访问数据,那么这段时间数据是 不可访问的。

数据一致性

在数据有多份副本的情况下,如果网络、服务器或者软件出现故障,会导致部分副 本写入成功,部分副本写入失败。这就会造成各个副本之间的数据不一致,数据内容冲 突。实践中,导致数据不一致的情形有很多种,表现形式也多种多样,比如数据更新返 回操作失败,事实上数据在存储服务器已经更新成功。

CAP原理认为,一个提供数据服务的存储系统无法同时满足数据一致性(Consistency )、数据可用性(Availibility )、分区耐受性(Patition Tolerance,系统具有跨网络分区的伸缩性)这三个条件,如图5.10所示。
在这里插入图片描述

在大型网站应用中,数据规模总是快速扩张的,因此可伸缩性即分区耐受性必不可少,规模变大以后,机器数量也会变得庞大,这时网络和服务器故障会频繁岀现,要想 保证应用可用,就必须保证分布式处理系统的高可用性。所以在大型网站中,通常会选 择强化分布式存储系统的可用性(A )和伸缩性(P ),而在某种程度上放弃一致性(C )o 一般说来,数据不一致通常出现在系统高并发写操作或者集群状态不稳(故障恢复、集 群扩容……)的情况下,应用系统需要对分布式数据处理系统的数据不一致性有所了解 并进行某种意义上的补偿和纠错,以避免出现应用系统数据不正确。

2012年淘宝“双十一”活动期间,在活动第一分钟就涌入了 1000万独立用户访问, 这种极端的高并发场景对数据处理系统造成了巨大压力,存储系统较弱的数据一致性导 致岀现部分商品超卖现象(交易成功的商品数超过了商品库存数)o

CAP原理对于可伸缩的分布式系统设计具有重要意义,在系统设计开发过程中,不恰 当地迎合各种需求,企图打造一个完美的产品,可能会使设计进入两难境地,难以为继。
具体说来,数据一致性又可分为如下几点。

数据强一致

各个副本的数据在物理存储中总是一致的;数据更新操作结果和操作响应总是一致 的,即操作响应通知更新失败,那么数据一定没有被更新,而不是处于不确定状态。

数据用户一致

即数据在物理存储中的各个副本的数据可能是不一致的,但是终端用户访问时,通
过纠错和校验机制,可以确定一个一致的且正确的数据返回给用户。

数据最终一致

这是数据一致性中较弱的一种,即物理存储的数据可能是不一致的,终端用户访问到的数据可能也是不一致的(同一用户连续访问,结果不同;或者不同用户同时访问, 结果不同),但系统经过一段时间(通常是一个比较短的时间段)的自我恢复和修正,数 据最终会达到一致。

因为难以满足数据强一致性,网站通常会综合成本、技术、业务场景等条件,结合 应用服务和其他的数据监控与纠错功能,使存储系统达到用户一致,保证最终用户访问 数据的正确性。




2 数据备份

数据备份是一种古老而有效的数据保护手段,早期的数据备份手段主要是数据冷备, 即定期将数据复制到某种存储介质(磁带,光盘……)上并物理存档保管,如果系统存 储损坏,那么就从冷备的存储设备中恢复数据。

冷备的优点是简单和廉价,成本和技术难度都较低。缺点是不能保证数据最终一致,由于数据是定期复制,因此备份设备中的数据比系统中的数据陈旧,如果系统数据丢失, 那么从上个备份点开始后更新的数据就会永久丢失,不能从备份中恢复。同时也不能保 证数据可用性,从冷备存储中恢复数据需要较长的时间,而这段时间无法访问数据,系 统也不可用。

因此,数据冷备作为一种传统的数据保护手段,依然在网站日常运维中使用,同时 在网站实时在线业务中,还需要进行数据热备,以提供更好的数据可用性。

数据热备可分为两种:异步热备方式和同步热备方式。

异步方式是指多份数据副本的写入操作异步完成,应用程序收到数据服务系统的写 操作成功响应时,只写成功了一份,存储系统将会异步地写其他副本(这个过程有可能 会失败)。如图5.11所示。

图5.11数据异步热备

在异步写入方式下,存储服务器分为主存储服务器(Master )和从存储服务器(Slave ), 应用程序正常情况下只连接主存储服务器,数据写入时,由主存储服务器的写操作代理 模块将数据写入本机存储系统后立即返回写操作成功响应,然后通过异步线程将写操作 数据同步到从存储服务器。

同步方式是指多份数据副本的写入操作同步完成,即应用程序收到数据服务系统的
写成功响应时,多份数据都已经写操作成功。但是当应用程序收到数据写操作失败的响 应时,可能有部分副本或者全部副本都已经写成功了(因为网络或者系统故障,无法返 回操作成功的响应),如图5.12所示。

图5.12数据同步热备

同步热备具体实现的时候,为了提高性能,在应用程序客户端并发向多个存储服务 器同时写入数据,然后等待所有存储服务器都返回操作成功的响应后,再通知应用程序 写操作成功。

这种情况下,存储服务器没有主从之分,完全对等,更便于管理和维护。存储服务客户端在写多份数据的时候,并发操作,这意味着多份数据的总写操作延迟是响应最慢 的那台存储服务器的响应延退,而不是多台存储服务器响应延迟之和。其性能和异步热 备方式差不多。

传统的企业级关系数据库系统几乎都提供了数据实时同步备份的机制。而一开始就 为大型网站而设计的各种NoSQL数据库(如HBase )更是将数据备份机制作为产品最主 要的功能点之一。

关系数据库热备机制就是通常所说的Master-Slave同步机制。Master-Slave机制不但 解决了数据备份问题,还改善了数据库系统的性能,实践中,通常使用读写分离的方法
访问Slave和Master数据库,写操作只访问Master数据库,读操作只访问Slave数据库。




3 失效转移

若数据服务器集群中任何一台服务器宕机,那么应用程序针对这台服务器的所有读 写操作都需要重新路由到其他服务器,保证数据访问不会失败,这个过程叫作失效转移。
失效转移操作由三部分组成:失效确认、访问转移、数据恢复。


  1. 失效确认

判断服务器宕机是系统进行失效转移的第一步,系统确认一台服务器是否宕机的手 段有两种:心跳检测和应用程序访问失败报告,如图5.13所示。
在这里插入图片描述

对于应用程序的访问失败报告,控制中心还需要再一次发送心跳检测进行确认,以
免错误判断服务器宕机,因为一旦进行数据访问的失效转移,就意味着数据存储多份副 本不一致,需要进行后续一系列复杂的操作。


  1. 访问转移

确认某台数据存储服务器宕机后,就需要将数据读写访问重新路由到其他服务器上。 对于完全对等存储的服务器(几台存储服务器存储的数据完全一样,我们称几台服务器 为对等服务器,比如主从结构的存储服务器,其存储的数据完全一样),当其中一台宕机 后,应用程序根据配置直接切换到对等服务器上。如果存储是不对等的,那么就需要重新计算路由,选择存储服务器。


  1. 数据恢复

因为某台服务器宕机,所以数据存储的副本数目会减少,必须将副本的数目恢复到 系统设定的值,否则,再有服务器宕机时,就可能出现无法访问转移(所有副本的服务 器都宕机了),数据永久丢失的情况。因此系统需要从健康的服务器复制数据,将数据副 本数目恢复到设定值。具体设计可参考本书第11章。






推荐阅读
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • Java工程师书单(初级,中级,高级)
    简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]
  • 博客_2018年博客总结
    本文由编程笔记#小编为大家整理,主要介绍了2018年博客总结相关的知识,希望对你有一定的参考价值。前言     ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 开发笔记:计网局域网:NAT 是如何工作的?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了计网-局域网:NAT是如何工作的?相关的知识,希望对你有一定的参考价值。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 智慧博物馆信息系统建设方案
    3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • 前面刚有AWS开战MongoDB,双方“隔空互呛”,这厢又曝出2亿+简历信息泄露——MongoDB的这场开年似乎“充实”得过分了些。长期以来,作为“最受欢迎的NoSQL数据库”,M ... [详细]
author-avatar
大家庭方不_402
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有