《蹲坑学kubernetes》之82：Etcd选主原理详解

作者：U友50054453 | 来源：互联网 | 2023-10-10 23:26

Etcd实现高可靠分布式环境下多节点数据一致性的基础在于Raft算法，也就是说Raft原

Etcd实现高可靠分布式环境下多节点数据一致性的基础在于Raft算法，也就是说Raft原理就是Etcd工作原理。Raft主要分为三部分：选主、日志复制以及安全性。

一、选主

Raft协议是用于维护一组服务节点数据一致性的协议。这一组服务节点构成一个集群，并且有一个主节点来对外提供服务。当集群初始化，或者主节点挂掉后，面临一个选主问题。集群中每个节点，任意时刻处于Leader（主）, Follower（从）, Candidate（候选）这三个角色之一。

Leader：

对客户端通信的入口，对内数据同步的发起者，一个集群通常只有一个leader节点

follower:

非leader的节点，被动的接受来自leader的数据请求

candidate:

一种临时的角色，只存在于leader的选举阶段，某个节点想要变成leader，那么就发起投票请求，同时自己变成candidate。如果选举成功，则变为candidate，否则退回为follower

1、选主过程

（1）当集群初始化时候，每个节点都是Follower角色；

（2）集群中存在至多1个有效的主节点，通过心跳与其他节点同步数据；

（3）当Follower在一定时间内没有收到来自主节点的心跳，会将自己角色改变为Candidate，并发起一次选主投票；当收到包括自己在内超过半数节点赞成后，选举成功；当收到票数不足半数选举失败，或者选举超时。若本轮未选出主节点，将进行下一轮选举（出现这种情况，是由于多个节点同时选举，所有节点均为获得过半选票）。

（4）Candidate节点收到来自主节点的信息后，会立即终止选举过程，进入Follower角色。

（5）为了避免陷入选主失败循环，每个节点未收到心跳发起选举的时间是一定范围内的随机值，这样能够避免2个节点同时发起选主。

2、集群大小与容错能力

集群的大小指集群节点的个数。根据 etcd 的分布式数据冗余策略，集群节点越多，容错能力(Failure Tolerance)越强，同时写性能也会越差。所以关于集群大小的优化，其实就是容错和写性能的一个平衡。

Etcd推荐使用“奇数”作为集群节点个数。原因有二：

（1）奇数个节点与和其配对的偶数个节点相比(比如 3节点和4节点对比)，容错能力相同，却可以少一个节点。

（2）偶数个节点集群不可用风险更高，表现在选主过程中，有较大概率等额选票，从而出发下一轮选举。

所以综合考虑性能和容错能力，Etcd官方文档推荐的etcd集群大小是3、5、7。至于到底选择3、5，还是7，根据需要的容错能力而定。过半数的节点挂了，该集群就不可用了。

Etcd单实例节点支持每秒1000次数据写入。节点越多，由于数据同步涉及到网络延迟，会根据实际情况越来越慢，而读性能会随之变强，因为每个节点都能处理用户请求。

二、日志复制

所谓日志复制，是指主节点将每次操作形成日志条目，并持久化到本地磁盘，然后通过网络IO发送给其他节点。其他节点根据日志的逻辑时钟(TERM)和日志编号(INDEX)来判断是否将该日志记录持久化到本地。当主节点收到包括自己在内超过半数节点成功返回，那么认为该日志是可提交的(committed），并将日志输入到状态机，将结果返回给客户端。

这里需要注意的是，每次选主都会形成一个唯一的TERM编号，相当于逻辑时钟。每一条日志都有全局唯一的编号。

主节点通过网络IO向其他节点追加日志。若某节点收到日志追加的消息，首先判断该日志的TERM是否过期，以及该日志条目的INDEX是否比当前以及提交的日志的INDEX跟早。若已过期，或者比提交的日志更早，那么就拒绝追加，并返回该节点当前的已提交的日志的编号。否则，将日志追加，并返回成功。

当主节点收到其他节点关于日志追加的回复后，若发现有拒绝，则根据该节点返回的已提交日志编号，发送其编号下一条日志。

主节点像其他节点同步日志，还作了拥塞控制。具体地说，主节点发现日志复制的目标节点拒绝了某次日志追加消息，将进入日志探测阶段，一条一条发送日志，直到目标节点接受日志，然后进入快速复制阶段，可进行批量日志追加。

按照日志复制的逻辑，我们可以看到，集群中慢节点不影响整个集群的性能。另外一个特点是，数据只从主节点复制到Follower节点。

三、安全性

截止此刻，选主以及日志复制并不能保证节点间数据一致。试想，当一个某个节点挂掉了，一段时间后再次重启，并当选为主节点。而在其挂掉这段时间内，集群若有超过半数节点存活，集群会正常工作，那么会有日志提交。这些提交的日志无法传递给挂掉的节点。当挂掉的节点再次当选主节点，它将缺失部分已提交的日志。在这样场景下，按Raft协议，它将自己日志复制给其他节点，会将集群已经提交的日志给覆盖掉。这显然是不可接受的。

其他协议解决这个问题的办法是，新当选的主节点会询问其他节点，和自己数据对比，确定出集群已提交数据，然后将缺失的数据同步过来。这个方案有明显缺陷，增加了集群恢复服务的时间（集群在选举阶段不可服务），并且增加了协议的复杂度。

Raft解决的办法是，在选主逻辑中，对能够成为主的节点加以限制，确保选出的节点已定包含了集群已经提交的所有日志。如果新选出的主节点已经包含了集群所有提交的日志，那就不需要从和其他节点比对数据了。简化了流程，缩短了集群恢复服务的时间。

这里存在一个问题，加以这样限制之后，还能否选出主呢？答案是：只要仍然有超过半数节点存活，这样的主一定能够选出。因为已经提交的日志必然被集群中超过半数节点持久化，显然前一个主节点提交的最后一条日志也被集群中大部分节点持久化。当主节点挂掉后，集群中仍有大部分节点存活，那这存活的节点中一定存在一个节点包含了已经提交的日志了。

推荐阅读

post
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11
ip
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
ip
Hibernate框架简述

Hibernate全自动全映射ORM框架，旨在消除sql，是一个持久层的ORM框架1）、基础概念DAO(DataAccessorOb ... [详细]

蜡笔小新 2024-11-22 16:36:49
default
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
default
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
instance
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
instance
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
ip
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
default
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
string
使用TabActivity实现Android顶部选项卡功能

本文介绍如何通过继承TabActivity来创建Android应用中的顶部选项卡。通过简单的步骤，您可以轻松地添加多个选项卡，并实现基本的界面切换功能。 ... [详细]

蜡笔小新 2024-11-21 17:47:42
spring
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
spring
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
spring
深入理解云计算与大数据技术

本文详细探讨了云计算与大数据技术的关键知识点，包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用，以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]

蜡笔小新 2024-11-20 13:24:51
post
PGXC中的两阶段提交机制及其对事务一致性的保障

PGXC作为一款基于PostgreSQL的分布式数据库系统，利用Sharding技术将数据分散存储于多个数据库实例中。本文探讨了PGXC的两阶段提交过程及其实现事务强一致性的方法。 ... [详细]

蜡笔小新 2024-11-19 14:14:02
post
8个IDC大数据基础定义解析丨IDC

本文针对IDC数据行业相关名词术语进行解析，分为4组相关概念，希望大家读完 ... [详细]

蜡笔小新 2024-11-16 18:25:46

U友50054453

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章