一致性_Raft一致性协议

作者：Jump_jiedB0_666 | 来源：互联网 | 2023-08-17 06:09

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Raft一致性协议相关的知识，希望对你有一定的参考价值。分布式存储系统通常通过维护多个副本来进行fault-tolera

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Raft一致性协议相关的知识，希望对你有一定的参考价值。

分布式存储系统通常通过维护多个副本来进行fault-tolerance，提高系统的availability，带来的代价就是分布式存储系统的核心问题之一：维护多个副本的一致性。一致性协议就是用来干这事的，即使在部分副本宕机的情况下。Raft是一种较容易理解的一致性协议。一致性协议通常基于replicated state machines，即所有结点都从同一个state出发，都经过同样的一些操作序列，最后到达同样的state。

为了便于理解，Raft大概将整个过程分为三个阶段，leader election，log replication和commit(safety)。

每个server处于三个状态：leader，follower，candidate。正常情况下，所有server中只有一个是leader，其它的都是follower。server之间通过RPC消息通信。follower不会主动发起RPC消息。leader和candidate(选主的时候)会主动发起RPC消息。

Leader election

时间被分为很多连续的随机长度的term(一段时间)，一个term由一个唯一的id标识。每个term一开始就进行leader election：

1. followers将自己维护的current_term_id加1。

2. 然后将自己的状态转成candidate。

3. 发送RequestVoteRPC消息(带上current_term_id) 给其它所有server

这个过程会有三种结果：

1. 自己被选成了主。当收到了majority的投票后，状态切成leader，并且定期给其它的所有server发心跳消息(其实是不带log的AppendEntriesRPC)以告诉对方自己是current_term_id所标识的term的leader。每个term最多只有一个leader，term id作为logical clock，在每个RPC消息中都会带上，用于检测过期的消息，比如自己是一个过期的leader(term id更小的leader)。当一个server收到的RPC消息中的rpc_term_id比本地的current_term_id更大时，就更新current_term_id为rpc_term_id，并且如果当前state为leader或者candidate时，将自己的状态切成follower。如果rpc_term_id比本地的current_term_id更小，则拒绝这个RPC消息。

2. 别人成为了主。如1所述，当candidate在等待投票的过程中，收到了大于或者等于本地的current_term_id的声明对方是leader的AppendEntriesRPC时，则将自己的state切成follower，并且更新本地的current_term_id。

3. 没有选出主。当投票被瓜分，没有任何一个candidate收到了majority的vote时，没有leader被选出。这种情况下，每个candidate等待的投票的过程就超时了，接着candidates都会将本地的current_term_id再加1，发起RequestVoteRPC进行新一轮的leader election。

投票策略：

每个server只会给每个term投一票，具体的是否同意和后续的Safety有关。

当投票被瓜分后，所有的candidate同时超时，然后有可能进入新一轮的票数被瓜分，为了避免这个问题，Raft采用一种很简单的方法：每个candidate的election timeout从150ms-300ms之间随机取，那么第一个超时的candidate就可以发起新一轮的leader election，带着最大的term_id给其它所有server发送RequestVoteRPC消息，从而自己成为leader，然后给他们发送心跳消息以告诉他们自己是主。

Log Replication

当leader被选出来后，leader就可以接受客户端发来的请求了，每个请求包含一条需要被replicated state machines执行的命令。leader会把它作为一个log entry，append到它的日志中，然后给其它的server发AppendEntriesRPC。当leader确定一个log entry被safely replicated了，就apply这条log entry到状态机中然后返回结果给客户端。如果某个follower宕机了或者运行的很慢，或者网络丢包了，则会一直给这个follower发AppendEntriesRPC直到日志一致。

当一条日志是commited时，leader才能决定将它apply到状态机中。Raft保证一条commited的log entry已经持久化了并且会被所有的server执行。

当一个新的leader选出来的时候，它的日志和其它的follower的日志可能不一样，这个时候，就需要一个机制来保证日志是一致的。如下图所示，一个新leader产生时，集群状态可能如下：

最上面这个是新leader，a~f是follower，每个格子代表一条log entry，格子内的数字代表这个log entry是在哪个term上产生的。

新leader产生后，log就以leader上的log为准。其它的follower要么少了数据比如b，要么多了数据，比如f，要么既少了又多了数据，比如d。

需要有一种机制来让leader和follower对log达成一致，leader会为每个follower维护一个nextIndex，表示leader给各个follower发送的下一条log entry在log中的index，初始化为leader

的最后一条log entry的下一个位置。leader给follower发送AppendEntriesRPC消息，带着(term_id, (nextIndex-1))， term_id即(nextIndex-1)这个槽位的log entry的term_id，follower接收到AppendEntriesRPC后，会从自己的log中找是不是存在这样的log entry，如果不存在，就给leader回复拒绝消息，然后leader则将nextIndex减1，再重复，知道AppendEntriesRPC消息被接收。

以leader和b为例：

初始化，nextIndex为11，leader给b发送AppendEntriesRPC(6,10)，b在自己log的10号槽位中没有找到term_id为6的log entry。则给leader回应一个拒绝消息。接着，leader将nextIndex减一，变成10，然后给b发送AppendEntriesRPC(6, 9)，b在自己log的9号槽位中同样没有找到term_id为6的log entry。循环下去，直到leader发送了AppendEntriesRPC(4,4)，b在自己log的槽位4中找到了term_id为4的log entry。接收了消息。随后，leader就可以从槽位5开始给b推送日志了。

Safety

1.哪些follower有资格成为leader?

Raft保证被选为新leader的server拥有所有的已经committed的log entry，这与ViewStamped Replication不同，后者不需要这个保证，而是通过其他机制从follower拉取自己没有的commited的log entry。

这个保证是在RequestVoteRPC阶段做的，candidate在发送RequestVoteRPC时，会带上自己的最后一条log entry的term_id和index，server在接收到RequestVoteRPC消息时，如果发现自己的日志比RPC中的更新，就拒绝投票。日志比较的原则是，如果本地的最后一条log entry的term id更大，则更新，如果term id一样大，则日志更多的更大(index更大)。

2. 哪些log entry被认为是commited?

Raft一致性协议

两种情况：

1. leader正在replicate当前term即term2的log entry给其它follower，一旦leader确认了这条log entry被majority写盘了，这条log entry就被认为是committed。如图a，S1作为当前term即term2的leader，log index为2的日志被majority写盘了，这条log entry被认为是commited

2. leader正在replicate更早的term的log entry给其它follower。图b的状态是这么出来的：

S1作为term2的leader，给S1和S2 replicate完log index=2的日志后crash，当前状态为：

S1 1 2 宕机

S2 1 2

S3 1

S4 1

S5 1

S5被选为term3的leader(由于S5的最后一条log entry比S3，S4的最后一条log entry更新或一样新，接收到S3，S4，S5的投票)，自己产生了一条term3的日志，没有给任何人复制，就crash了，当前状态如下：

S1 1 2

S2 1 2

S3 1

S4 1

S5 1 3 宕机

接着S1重启后，又被选为term4的leader(接收到S1，S2，S3的投票，文中没有指出S4？)，然后S1给S3复制了log index为2的log entry，当前状态如下：

S1 1 2

S2 1 2

S3 1 2

S4 1

S5 1 3 宕机

这个时候S5重启，被选为了term5的主(接收了S2，S3，S4，S5的投票)，那么S5会把log index为2的日志3复制给其它server，那么日志2就被overwrite了。

所以虽然这里日志2被majority的server写盘了，但是并不代表它是commited的。

对commit加一个限制：主的当前term的至少一条log entry被majority写盘

如：c图中，就是主的当前term 4的一条log entry被majority写盘了，假设这个时候S1宕机了，S5是不可能变成主的。因为S2和S3的log entry的term为4，比S5的3大。

关于算法的正确性证明见：Raft implementations

Log Compaction

在实际的系统中，不能让日志无限增长，否则系统重启时需要花很长的时间进行回放，从而影响availability。Raft采用对整个系统进行snapshot来处理，snapshot之前的日志都可以丢弃。

snapshot技术在Chubby和ZooKeeper系统中都有采用。

每个server独立的对自己的系统状态进行snapshot，并且只能对已经committed log entry(已经apply到了状态机)进行snapshot，snapshot有一些元数据，包括last_included_index，即snapshot覆盖的最后一条commited log entry的 log index，和last_included_term，即这条日志的termid。这两个值在snapshot之后的第一条log entry的AppendEntriesRPC的consistency check的时候会被用上，之前讲过。一旦这个server做完了snapshot，就可以把这条记录的最后一条log index及其之前的所有的log entry都删掉。

snapshot的缺点就是不是增量的，即使内存中某个值没有变，下次做snapshot的时候同样会被dump到磁盘。

当leader需要发给某个follower的log entry被丢弃了(因为leader做了snapshot)，leader会将snapshot发给落后太多的follower。或者当新加进一台机器时，也会发送snapshot给它。

发送snapshot使用新的RPC，InstalledSnapshot。

做snapshot有一些需要注意的性能点，1. 不要做太频繁，否则消耗磁盘带宽。 2. 不要做的太不频繁，否则一旦server重启需要回放大量日志，影响availability。系统推荐当日志达到某个固定的大小做一次snapshot。3. 做一次snapshot可能耗时过长，会影响正常log entry的replicate。这个可以通过使用copy-on-write的技术来避免snapshot过程影响正常log entry的replicate。

Cluster membership changes

Raft将有server加入集群或者从集群中删除也纳入一致性协议中考虑，避免由于下线老集群上线新集群而引起的不可用。集群的成员列表重配置也是一条log entry，log内容包含了集群成员列表。

老集群配置用C_old表示，新集群配置用C_new表示。

当集群成员配置改变时，leader收到人工发出的重配置命令从C_old切成C_new，leader 给其它server复制一条特殊的log entry给其它的server，内容包括C_old∪C_new，一旦server收到了这条特殊的配置log entry，其后的log entry会被replicate到C_old∪C_new中，一条log entry被认为是committed的需要满足这条日志既被C_old的majority写盘，也被C_new的majority写盘。一旦C_old∪C_new这条log entry被确认为committed，leader就会产生一条只包含了C_new的log entry，同样复制给所有server，server收到log后，老集群的server就可以自动下线了。

Performance

横坐标代表没有leader的ms数，每条线代表election timeout的随机取值区间。

上图说明只要给个5ms的区间，就能避免反复的投票被瓜分。超过10s没有leader的情况都是因为投票被瓜分的情况。

150-150ms的election timeout区间，没有主的时间平均287ms。

系统推荐使用150ms~300ms

Implementation

由于Go语言内置RPC，Channel，goroutine等高级编程组件，实现一个相对于其他语言还是容易些，这里有一个Go的实现 Raft

参考资料：

In Search of an Understandable Consensus Algorithm

推荐阅读

request
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
request
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
function
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
node.js
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
数组
C++ 异步编程中获取线程执行结果的方法与技巧及其在前端开发中的应用探讨

本文探讨了C++异步编程中获取线程执行结果的方法与技巧，并深入分析了这些技术在前端开发中的应用。通过对比不同的异步编程模型，本文详细介绍了如何高效地处理多线程任务，确保程序的稳定性和性能。同时，文章还结合实际案例，展示了这些方法在前端异步编程中的具体实现和优化策略。 ... [详细]

蜡笔小新 2024-11-09 15:14:28
case
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23
case
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
case
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
case
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
export
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
default
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
stream
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
function
C#编程指南：利用ASP.NET和JavaScript实现带有Fingerprint功能的Web应用登录系统

本指南介绍了如何在ASP.NET Web应用程序中利用C#和JavaScript实现基于指纹识别的登录系统。通过集成指纹识别技术，用户无需输入传统的登录ID即可完成身份验证，从而提升用户体验和安全性。我们将详细探讨如何配置和部署这一功能，确保系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 18:14:37
request
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
client
利用 Python Socket 实现 ICMP 协议下的网络通信

在计算机网络课程的2.1实验中，学生需要通过Python Socket编程实现一种基于ICMP协议的网络通信功能。与操作系统自带的Ping命令类似，该实验要求学生开发一个简化的、非标准的ICMP通信程序，以加深对ICMP协议及其在网络通信中的应用的理解。通过这一实验，学生将掌握如何使用Python Socket库来构建和解析ICMP数据包，并实现基本的网络探测功能。 ... [详细]

蜡笔小新 2024-11-09 11:55:12

Jump_jiedB0_666

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章