高可用_14高可用的数据

作者：大家庭方不_402 | 来源：互联网 | 2023-09-06 23:47

篇首语：本文由编程笔记#小编为大家整理，主要介绍了14高可用的数据相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了14 高可用的数据相关的知识，希望对你有一定的参考价值。

在这里插入图片描述

对许多网站而言&＃xff0c;数据是其最宝贵的物质资产&＃xff0c;硬件可以购买&＃xff0c;软件可以重写&＃xff0c;但是多年运营积淀下来的各种数据&＃xff08;用户数据、交易数据、商品数据……&＃xff09;&＃xff0c;代表着历史&＃xff0c; 已经成为过往&＃xff0c;不能再重来&＃xff0c;一旦失去&＃xff0c;对网站的打击可以说是毁灭性的&＃xff0c;因此可以说, 保护网站的数据就是保护企业的命脉。

不同于高可用的应用和服务&＃xff0c;由于数据存储服务器上保存的数据不同&＃xff0c;当某台服务器宕机的时候&＃xff0c;数据访问请求不能任意切换到集群中其他的机器上。

保证数据存储高可用的手段主要是数据备份和失效转移机制。数据备份是保证数据有多个副本&＃xff0c;任意副本的失效都不会导致数据的永久丢失&＃xff0c;从而实现数据完全的持久化。而失效转移机制则保证当一个数据副本不可访问时&＃xff0c;可以快速切换访问数据的其他副本, 保证系统可用O

关于缓存服务的高可用&＃xff0c;在实践中争议很大&＃xff0c;一种观点认为缓存已经成为网站数据服务的重要组成部分&＃xff0c;事实上承担了业务中绝大多数的数据读取访问服务&＃xff0c;缓存服务失效可能会导致数据库负载过高而宕机&＃xff0c;进而影响整个网站的可用性&＃xff0c;因此缓存服务需要实现和数据存储服务同样的高可用。

另一种观点认为&＃xff0c;缓存服务不是数据存储服务&＃xff0c;缓存服务器宕机引起缓存数据丢失
导致服务器负载压力过高应该通过其他手段解决&＃xff0c;而不是提高缓存服务本身的高可用。

笔者持后一种观点&＃xff0c;对于缓存服务器集群中的单机宕机&＃xff0c;如果缓存服务器集群规模较大&＃xff0c;那么单机宕机引起的缓存数据丢失比例和数据库负载压力变化都较小&＃xff0c;对整个系统影响也较小。扩大缓存服务器集群规模的一个简单手段就是整个网站共享同一个分布式缓存集群&＃xff0c;单独的应用和产品不需要部署自己的缓存服务器&＃xff0c;只需要向共享缓存集群申请缓存资源即可。并且通过逻辑或物理分区的方式将每个应用的缓存部署在多台服务器上&＃xff0c;任何一台服务器宕机引起的缓存失效都只影响应用缓存数据的一小部分&＃xff0c;不会对应用性能和数据库负载造成太大影响。

1 CAP 原理

在讨论高可用数据服务架构之前&＃xff0c;必须先讨论的一个话题是&＃xff0c;为了保证数据的高可用&＃xff0c;网站通常会牺牲另一个也很重要的指标&＃xff1a;数据一致性。
高可用的数据有如下几个层面的含义。

数据持久性

保证数据可持久存储&＃xff0c;在各种情况下都不会岀现数据丢失的问题。为了实现数据的持久性&＃xff0c;不但在写入数据时需要写入持久性存储&＃xff0c;还需要将数据备份一个或多个副本&＃xff0c; 存放在不同的物理存储设备上&＃xff0c;在某个存储故障或灾害发生时&＃xff0c;数据不会丢失。

数据可访问性

在多份数据副本分别存放在不同存储设备的情况下&＃xff0c;如果一个数据存储设备损坏&＃xff0c; 就需要将数据访问切换到另一个数据存储设备上&＃xff0c;如果这个过程不能很快完成&＃xff08;终端用户几乎没有感知&＃xff09;&＃xff0c;或者在完成过程中需要停止终端用户访问数据&＃xff0c;那么这段时间数据是不可访问的。

数据一致性

在数据有多份副本的情况下&＃xff0c;如果网络、服务器或者软件出现故障&＃xff0c;会导致部分副本写入成功&＃xff0c;部分副本写入失败。这就会造成各个副本之间的数据不一致&＃xff0c;数据内容冲突。实践中&＃xff0c;导致数据不一致的情形有很多种&＃xff0c;表现形式也多种多样&＃xff0c;比如数据更新返回操作失败&＃xff0c;事实上数据在存储服务器已经更新成功。

CAP原理认为&＃xff0c;一个提供数据服务的存储系统无法同时满足数据一致性(Consistency )、数据可用性(Availibility )、分区耐受性(Patition Tolerance,系统具有跨网络分区的伸缩性&＃xff09;这三个条件&＃xff0c;如图5.10所示。
在这里插入图片描述

在大型网站应用中&＃xff0c;数据规模总是快速扩张的&＃xff0c;因此可伸缩性即分区耐受性必不可少&＃xff0c;规模变大以后&＃xff0c;机器数量也会变得庞大&＃xff0c;这时网络和服务器故障会频繁岀现&＃xff0c;要想保证应用可用&＃xff0c;就必须保证分布式处理系统的高可用性。所以在大型网站中&＃xff0c;通常会选择强化分布式存储系统的可用性&＃xff08;A &＃xff09;和伸缩性&＃xff08;P &＃xff09;,而在某种程度上放弃一致性&＃xff08;C &＃xff09;o 一般说来&＃xff0c;数据不一致通常出现在系统高并发写操作或者集群状态不稳&＃xff08;故障恢复、集群扩容……&＃xff09;的情况下&＃xff0c;应用系统需要对分布式数据处理系统的数据不一致性有所了解并进行某种意义上的补偿和纠错&＃xff0c;以避免出现应用系统数据不正确。

2012年淘宝“双十一”活动期间&＃xff0c;在活动第一分钟就涌入了 1000万独立用户访问&＃xff0c; 这种极端的高并发场景对数据处理系统造成了巨大压力&＃xff0c;存储系统较弱的数据一致性导致岀现部分商品超卖现象&＃xff08;交易成功的商品数超过了商品库存数&＃xff09;o

CAP原理对于可伸缩的分布式系统设计具有重要意义&＃xff0c;在系统设计开发过程中&＃xff0c;不恰当地迎合各种需求&＃xff0c;企图打造一个完美的产品&＃xff0c;可能会使设计进入两难境地&＃xff0c;难以为继。
具体说来&＃xff0c;数据一致性又可分为如下几点。

数据强一致

各个副本的数据在物理存储中总是一致的&＃xff1b;数据更新操作结果和操作响应总是一致的&＃xff0c;即操作响应通知更新失败&＃xff0c;那么数据一定没有被更新&＃xff0c;而不是处于不确定状态。

数据用户一致

即数据在物理存储中的各个副本的数据可能是不一致的&＃xff0c;但是终端用户访问时&＃xff0c;通
过纠错和校验机制&＃xff0c;可以确定一个一致的且正确的数据返回给用户。

数据最终一致

这是数据一致性中较弱的一种&＃xff0c;即物理存储的数据可能是不一致的&＃xff0c;终端用户访问到的数据可能也是不一致的&＃xff08;同一用户连续访问&＃xff0c;结果不同&＃xff1b;或者不同用户同时访问, 结果不同&＃xff09;&＃xff0c;但系统经过一段时间&＃xff08;通常是一个比较短的时间段&＃xff09;的自我恢复和修正&＃xff0c;数据最终会达到一致。

因为难以满足数据强一致性&＃xff0c;网站通常会综合成本、技术、业务场景等条件&＃xff0c;结合应用服务和其他的数据监控与纠错功能&＃xff0c;使存储系统达到用户一致&＃xff0c;保证最终用户访问数据的正确性。

2 数据备份

数据备份是一种古老而有效的数据保护手段&＃xff0c;早期的数据备份手段主要是数据冷备, 即定期将数据复制到某种存储介质&＃xff08;磁带&＃xff0c;光盘……&＃xff09;上并物理存档保管&＃xff0c;如果系统存储损坏&＃xff0c;那么就从冷备的存储设备中恢复数据。

冷备的优点是简单和廉价&＃xff0c;成本和技术难度都较低。缺点是不能保证数据最终一致,由于数据是定期复制&＃xff0c;因此备份设备中的数据比系统中的数据陈旧&＃xff0c;如果系统数据丢失, 那么从上个备份点开始后更新的数据就会永久丢失&＃xff0c;不能从备份中恢复。同时也不能保证数据可用性&＃xff0c;从冷备存储中恢复数据需要较长的时间&＃xff0c;而这段时间无法访问数据&＃xff0c;系统也不可用。

因此&＃xff0c;数据冷备作为一种传统的数据保护手段&＃xff0c;依然在网站日常运维中使用&＃xff0c;同时在网站实时在线业务中&＃xff0c;还需要进行数据热备&＃xff0c;以提供更好的数据可用性。

数据热备可分为两种&＃xff1a;异步热备方式和同步热备方式。

异步方式是指多份数据副本的写入操作异步完成&＃xff0c;应用程序收到数据服务系统的写操作成功响应时&＃xff0c;只写成功了一份&＃xff0c;存储系统将会异步地写其他副本&＃xff08;这个过程有可能会失败&＃xff09;。如图5.11所示。

图5.11数据异步热备

在异步写入方式下&＃xff0c;存储服务器分为主存储服务器&＃xff08;Master &＃xff09;和从存储服务器&＃xff08;Slave &＃xff09;, 应用程序正常情况下只连接主存储服务器&＃xff0c;数据写入时&＃xff0c;由主存储服务器的写操作代理模块将数据写入本机存储系统后立即返回写操作成功响应&＃xff0c;然后通过异步线程将写操作数据同步到从存储服务器。

同步方式是指多份数据副本的写入操作同步完成&＃xff0c;即应用程序收到数据服务系统的
写成功响应时&＃xff0c;多份数据都已经写操作成功。但是当应用程序收到数据写操作失败的响应时&＃xff0c;可能有部分副本或者全部副本都已经写成功了&＃xff08;因为网络或者系统故障&＃xff0c;无法返回操作成功的响应&＃xff09;&＃xff0c;如图5.12所示。

图5.12数据同步热备

同步热备具体实现的时候&＃xff0c;为了提高性能&＃xff0c;在应用程序客户端并发向多个存储服务器同时写入数据&＃xff0c;然后等待所有存储服务器都返回操作成功的响应后&＃xff0c;再通知应用程序写操作成功。

这种情况下&＃xff0c;存储服务器没有主从之分&＃xff0c;完全对等&＃xff0c;更便于管理和维护。存储服务客户端在写多份数据的时候&＃xff0c;并发操作&＃xff0c;这意味着多份数据的总写操作延迟是响应最慢的那台存储服务器的响应延退&＃xff0c;而不是多台存储服务器响应延迟之和。其性能和异步热备方式差不多。

传统的企业级关系数据库系统几乎都提供了数据实时同步备份的机制。而一开始就为大型网站而设计的各种NoSQL数据库&＃xff08;如HBase &＃xff09;更是将数据备份机制作为产品最主要的功能点之一。

关系数据库热备机制就是通常所说的Master-Slave同步机制。Master-Slave机制不但解决了数据备份问题&＃xff0c;还改善了数据库系统的性能&＃xff0c;实践中&＃xff0c;通常使用读写分离的方法
访问Slave和Master数据库&＃xff0c;写操作只访问Master数据库&＃xff0c;读操作只访问Slave数据库。

3 失效转移

若数据服务器集群中任何一台服务器宕机&＃xff0c;那么应用程序针对这台服务器的所有读写操作都需要重新路由到其他服务器&＃xff0c;保证数据访问不会失败&＃xff0c;这个过程叫作失效转移。
失效转移操作由三部分组成&＃xff1a;失效确认、访问转移、数据恢复。

失效确认

判断服务器宕机是系统进行失效转移的第一步&＃xff0c;系统确认一台服务器是否宕机的手段有两种&＃xff1a;心跳检测和应用程序访问失败报告&＃xff0c;如图5.13所示。
在这里插入图片描述

对于应用程序的访问失败报告&＃xff0c;控制中心还需要再一次发送心跳检测进行确认&＃xff0c;以
免错误判断服务器宕机&＃xff0c;因为一旦进行数据访问的失效转移&＃xff0c;就意味着数据存储多份副本不一致&＃xff0c;需要进行后续一系列复杂的操作。

访问转移

确认某台数据存储服务器宕机后&＃xff0c;就需要将数据读写访问重新路由到其他服务器上。对于完全对等存储的服务器&＃xff08;几台存储服务器存储的数据完全一样&＃xff0c;我们称几台服务器为对等服务器&＃xff0c;比如主从结构的存储服务器&＃xff0c;其存储的数据完全一样&＃xff09;&＃xff0c;当其中一台宕机后&＃xff0c;应用程序根据配置直接切换到对等服务器上。如果存储是不对等的&＃xff0c;那么就需要重新计算路由&＃xff0c;选择存储服务器。

数据恢复

因为某台服务器宕机&＃xff0c;所以数据存储的副本数目会减少&＃xff0c;必须将副本的数目恢复到系统设定的值&＃xff0c;否则&＃xff0c;再有服务器宕机时&＃xff0c;就可能出现无法访问转移&＃xff08;所有副本的服务器都宕机了&＃xff09;&＃xff0c;数据永久丢失的情况。因此系统需要从健康的服务器复制数据&＃xff0c;将数据副本数目恢复到设定值。具体设计可参考本书第11章。

推荐阅读

hash
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
hash
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
java
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
spring
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
java
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
hash
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
text
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
lua
为何Serverless将成为未来十年的主导技术领域？

为何Serverless将成为未来十年的主导技术领域？ ... [详细]

蜡笔小新 2024-10-28 09:23:05
erlang
RocketMQ在秒杀时的应用

目录一、RocketMQ是什么二、broker和nameserver2.1Broker2.2NameServer三、MQ在秒杀场景下的应用3.1利用MQ进行异步操作3. ... [详细]

蜡笔小新 2024-11-14 12:27:39
text
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
text
B站服务器故障影响豆瓣评分？别担心，阿里巴巴架构师分享预防策略与技术方案

13日晚上，在视频观看高峰时段，B站出现了服务器故障，引发网友在各大平台上的广泛吐槽。这一事件导致了连锁反应，大量用户纷纷涌入A站、豆瓣和晋江等平台，给这些网站带来了突如其来的流量压力。为了防止类似问题的发生，阿里巴巴架构师分享了一系列预防策略和技术方案，包括负载均衡、弹性伸缩和容灾备份等措施，以确保系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-10 15:59:22
spring
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
hash
Linux学习精华：程序管理、终端种类与命令帮助获取方法综述

Linux学习精华：程序管理、终端种类与命令帮助获取方法综述 ... [详细]

蜡笔小新 2024-10-28 13:45:59
hash
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21
spring
Spring Boot 永远滴神！10分钟快速入门

为什么是SpringBoot因为目前开发WEB应用，SpringBoot是启动Spring项目最快最流行的方式了。无论我们要构建一个什么样的应用，它都可 ... [详细]

蜡笔小新 2024-10-13 12:28:17

大家庭方不_402

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章