从Elasticsearch来看分布式存储系统设计

作者：手机用户2502905845 | 来源：互联网 | 2023-07-22 15:25

随着现在数据量的日益爆炸，存储一直都是一个系统的重中之重。从最早的打孔式的数据存储方式，

随着现在数据量的日益爆炸，存储一直都是一个系统的重中之重。从最早的打孔式的数据存储方式，到数据库的横空出世，再到后面的分布式存储，存储的方式一直都在演变，但是核心功能却是不变的 ———— 存下更多的数据以及更快的查到数据。Elasticsearch（下文简称为ES）是一个非常著名且非常流行的搜索引擎，被广泛用在各种数据存储与数据搜索场景中中。记得阿摸还在菜鸟的时候，物流订单的存储就是双写——一份写数据库，一份写ES，ES的数据主要用作高性能的复杂查询。相比solr，它有着更加丰富的功能，如地理位置查询，时序数据分析等。同样作为文档型数据库，读写性能优于MongoDB。再说日志处理，监控数据分析的领域，以ES为基础的ELK技术栈更是这个领域的领导者。本文借着Elasticsearch来探索一下分布式存储系统的设计本文分如下几个部分

Elasticsearch集群架构
ElasticSearch数据架构
本地文件 VS 共享存储 —— 常见的分布式存储系统的架构选择

Elasticsearch集群架构

本小结分为如下几个部分：

ES主要概念解析
ES集群角色分析
ES发现机制与选主机制

概念分析

上图是ES的集群的简单图示，我们可以在上图看出ES集群中我们最需要关注的概念有如下几个：

集群（cluster）：表示运行着可以互相发现，组成集群的ES实例集合
节点（node）：物理概念，表示一个运行ES实例的进程，通常一台机器只运行一个ES实例。
索引（index）：可以类比数据库中的表的概念，包括配置数据与倒排正排数据文件
分片（shard）：ES是分布式搜索引擎，每个索引有一个或多个分片，索引的数据被分配到各个分片上，相当于一桶水用了N个杯子装。分片有助于横向扩展，N个分片会被尽可能平均地（rebalance）分配在不同的节点上（例如你有2个节点，4个主分片(不考虑备份)，那么每个节点会分到2个分片，后来你增加了2个节点，那么你这4个节点上都会有1个分片，这个过程叫relocation，ES感知后自动完成)
副本（replica）：复制，可以理解为备份分片，相应地有primary shard（主分片）。主分片和备分片不会出现在同一个节点上（防止单点故障），默认情况下一个索引创建5个分片一个备份（即5primary+5replica=10个分片），如果你只有一个节点，那么5个replica都无法分配（unassigned）

ps：更加细节的数据模型，留到ES的数据模型篇再讲。从上图我们可以看到index的配置为3*2，即3 primary shard + 3 replica shard。基于系统可用性的考虑，同一个shard的primary和replica不能位于同一个Node中。

角色分析

ES中节点有角色的区分的，通过配置文件conf/elasticsearch.yml中配置以下配置进行角色的设定。

# 允许一个节点是否可以成为一个master节点,es是默认集群中的第一台机器为master,如果这台机器停止就会重新选举master. node.master: true # 允许该节点存储数据(默认开启) node.data: true # 搜索器，从节点中获取数据,生成搜索结果等 node.ingest: true # 配置文件中给出了三种配置高性能集群拓扑结构的模式,如下： # 1. 如果你想让节点从不选举为主节点,只用来存储数据,可作为负载器 node.master: false node.data: true node.ingest: true #默认true # 2. 如果想让节点成为主节点,且不存储任何数据,并保有空闲资源,可作为协调器 node.master: true node.data: false node.ingest: true # 3. 如果想让节点既不称为主节点,又不成为数据节点,那么可将他作为搜索器,从节点中获取数据,生成搜索结果等 node.master: false node.data: false node.ingest: true # 4. 仅作为协调器 node.master: false node.data: false node.ingest: false

上面的配置其实已经很清晰的将ES的节点的角色分列了出来：

**主节点：**负责索引的添加、删除，跟踪哪些节点是群集的一部分，对分片进行分配、收集集群中各节点的状态等。
**候选主节点：**只有是候选主节点才可以参与选举投票，也只有候选主节点可以被选举为主节点。
**数据节点：**负责对数据的增、删、改、查、聚合等操作，数据的查询和存储都是由数据节点负责。一般用高配机器作为数据节点
**搜索节点：**一般和协调节点是一起的，可以通过配置来确定是否设置为搜索节点。主要的作用就是从节点中获取数据,生成搜索结果等。
**协调节点：**其不是通过设置来设置的，用户的请求可以随机发往任何一个节点，并由该节点负责分发请求、收集结果等操作，而不需要主节点转发。集群中的任何节点都可以充当协调节点的角色。

发现机制与选主机制

ES组成一个集群的方式非常的简单，只要如下一行配置，你就可以马上组件一个ES的集群

cluster.name=my-es-cluster

为什么ES可以使用如此简单的配置就可以组成一个集群呢，这里就要讲一把ES自身的发现机制——ZenDiscovery。有别于Solr使用Zookeeper来做节点发现以及节点协调，ES的内置ZenDiscovery发现机制。ZenDiscovery提供单播和多播两种发现方式，主要负责是集群中节点的发现以及选举主节点。

多播，也叫组播，指一个节点可以向多台机器发送请求。生产环境中ES不建议使用这种方式，对于一个大规模的集群，多播会产生大量无用的通信。

默认情况下ZenDiscovery使用发现方式为单播，当一个节点加入一个现有集群，或者组建一个新的集群时，请求发送到一台机器。当一个节点联系到单播列表中的成员时，它就会得到整个集群所有节点的状态，然后它会联系主节点，并加入集群。使用单播时，列表不需要包含集群中的所有节点，它只是需要足够的节点，当一个新节点联系上其中一个并且通信就可以了。ES官方建议discovery.zen.ping.unicast.hosts配置为所有的候选主节点，就像下面这样配置：

discovery.zen.ping.unicast.hosts: ["host1", "host2:port","host3"]

ZenDiscovery 会每隔ping_interval ping一次，每次超时时间是discovery.zen.ping_timeout，ping_retries次 ping失败则认为节点宕机，宕机的情况下会触发failover，会进行分片重分配、复制等操作。如果宕机的节点不是主节点，则主节点会更新集群的元信息，主节点将最新的集群元信息发布出去，给其他节点，其他节点回复Ack，主节点收到discovery.zen.minimum_master_nodes-1个候选主节点的回复，则发送Apply消息给其他节点，集群状态更新完毕。如果宕机的节点是Master，则其他的候选主节点开始Master节点的选举流程。那整个集群是如何选主的呢。ES的选主使用的是很经典的quorum算法。选主的发起由候选主节点发起，当前候选主节点发现自己不是master节点，并且通过ping其他节点发现无法联系到主节点，并且包括自己在内已经有超过minimum_master_nodes个节点无法联系到主节点，那么这个时候则发起选主。

选主流程图

选主的时候按照集群节点的参数排序。stateVersion从大到小排序，以便选出集群元信息较新的节点作为Master，id从小到大排序，避免在stateVersion相同时发生分票无法选出 Master。

排序后第一个节点即为Master节点。当一个候选主节点发起一次选举时，它会按照上述排序策略选出一个它认为的Master

Elasticsearch数据架构

数据存储

Elasticsearch的Index和meta，目前支持存储在本地文件系统中，同时支持niofs，mmap，simplefs，smb等不同加载方式，性能最好的是直接将索引LOCK进内存的MMap方式。默认，Elasticsearch会自动选择加载方式，另外可以自己在配置文件中配置。这里有几个细节，具体可以看官方文档。

索引和meta数据都存在本地，会带来一个问题：当某一台机器宕机或者磁盘损坏的时候，数据就丢失了。为了解决这个问题，可以使用Replica（副本）功能。

副本

可以为每一个Index设置一个配置项：副本（Replicda）数，如果设置副本数为2，那么就会有3个Shard，其中一个是PrimaryShard，其余两个是ReplicaShard，这三个Shard会被Mater尽量调度到不同机器，甚至机架上，这三个Shard中的数据一样，提供同样的服务能力。

副本（Replica）的目的有三个：

保证服务可用性：当设置了多个Replica的时候，如果某一个Replica不可用的时候，那么请求流量可以继续发往其他Replica，服务可以很快恢复开始服务。
保证数据可靠性：如果只有一个Primary，没有Replica，那么当Primary的机器磁盘损坏的时候，那么这个Node中所有Shard的数据会丢失，只能reindex了。
提供更大的查询能力：当Shard提供的查询能力无法满足业务需求的时候，可以继续加N个Replica，这样查询能力就能提高N倍，轻松增加系统的并发度。

架构的优劣

上面说了一些优势，这种架构同样在一些场景下会有些问题。

Elasticsearch采用的是基于本地文件系统，使用Replica保证数据可靠性的技术架构，这种架构一定程度上可以满足大部分需求和场景，但是也存在一些遗憾：

Replica带来成本浪费。为了保证数据可靠性，必须使用Replica，但是当一个Shard就能满足处理能力的时候，另一个Shard的计算能力就会浪费。
Replica带来写性能和吞吐的下降。每次Index或者update的时候，需要先更新Primary Shard，更新成功后再并行去更新Replica，再加上长尾，写入性能会有不少的下降。
当出现热点或者需要紧急扩容的时候动态增加Replica慢。新Shard的数据需要完全从其他Shard拷贝，拷贝时间较长。上面介绍了Elasticsearch数据层的架构，以及副本策略带来的优势和不足，下面简单介绍了几种不同形式的分布式数据系统架构。

常见的分布式存储系统的架构选择

本地文件还是共享存储？

第一种：基于本地文件系统的分布式系统

上图中是一个基于本地磁盘存储数据的分布式系统。Index一共有3个Shard，每个Shard除了Primary Shard外，还有一个Replica Shard。当Node 3机器宕机或磁盘损坏的时候，首先确认P3已经不可用，重新选举R3位Primary Shard，此Shard发生主备切换。然后重新找一台机器Node 7，在Node7 上重新启动P3的新Replica。由于数据都会存在本地磁盘，此时需要将Shard 3的数据从Node 6上拷贝到Node7上。如果有200G数据，千兆网络，拷贝完需要1600秒。如果没有replica，则这1600秒内这些Shard就不能服务。

为了保证可靠性，就需要冗余Shard，会导致更多的物理资源消耗。

这种思想的另外一种表现形式是使用双集群，集群级别做备份。

在这种架构中，如果你的数据是在其他存储系统中生成的，比如HDFS/HBase，那么你还需要一个数据传输系统，将准备好的数据分发到相应的机器上。

这种架构中为了保证可用性和可靠性，需要双集群或者Replica才能用于生产环境，优势和副作用在上面介绍Elasticsearch的时候已经介绍过了，这里就就不赘述了。

Elasticsearch使用的就是这种架构方式。

第二种：基于分布式文件系统的分布式系统（共享存储）

针对第一种架构中的问题，另一种思路是：存储和计算分离。

第一种思路的问题根源是数据量大，拷贝数据耗时多，那么有没有办法可以不拷贝数据？为了实现这个目的，一种思路是底层存储层使用共享存储，每个Shard只需要连接到一个分布式文件系统中的一个目录/文件即可，Shard中不含有数据，只含有计算部分。相当于每个Node中只负责计算部分，存储部分放在底层的另一个分布式文件系统中，比如HDFS。

上图中，Node 1 连接到第一个文件；Node 2连接到第二个文件；Node3连接到第三个文件。当Node 3机器宕机后，只需要在Node 4机器上新建一个空的Shard，然后构造一个新连接，连接到底层分布式文件系统的第三个文件即可，创建连接的速度是很快的，总耗时会非常短。

这种是一种典型的存储和计算分离的架构，优势有以下几个方面：

在这种架构下，资源可以更加弹性，当存储不够的时候只需要扩容存储系统的容量；当计算不够的时候，只需要扩容计算部分容量。
存储和计算是独立管理的，资源管理粒度更小，管理更加精细化，浪费更少，结果就是总体成本可以更低。
负载更加突出，抗热点能力更强。一般热点问题基本都出现在计算部分，对于存储和计算分离系统，计算部分由于没有绑定数据，可以实时的扩容、缩容和迁移，当出现热点的时候，可以第一时间将计算调度到新节点上。这种架构同时也有几个不足：
访问分布式文件系统的性能可能不及访问本地文件系统。在上一代分布式文件系统中，这是一个比较明显的问题，但是目前使用了各种用户态协议栈后，这个差距已经越来越小了。
强依赖底层分布式存储，目前业界流行的HDFS的架构设计逻辑其实也是基于本地文件系统的存储。万变不离其宗。

HBase使用的就是这种架构方式。

小结

上面以ES的架构为例子分析了分布式存储系统的设计架构，其实分布式存储系统还涉及到很多的方面，比如离线计算，数据分析等等，细节之多，权衡的艺术体现之明显，完全值得更加深入的去研究。

行数：158

字数：4086

主题：默认主题

推荐阅读

web
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
web
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
web
MongoDB核心概念与基础知识解析

MongoDB 是一种基于分布式文件存储的非关系型数据库系统，主要采用 C++ 语言开发。本文将详细介绍 MongoDB 的核心概念和基础知识，包括其与传统 SQL 数据库的区别，数据库及集合的基本操作，如数据的插入、更新、删除和查询等。通过本文，读者可以全面了解 MongoDB 的基本功能及其应用场景。 ... [详细]

蜡笔小新 2024-11-05 13:55:22
post
揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节

揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]

蜡笔小新 2024-11-03 18:33:00
string
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
post
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
post
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
text
艾伟深入解析：WCF Binding模型中的绑定元素详解

本文深入解析了WCF Binding模型中的绑定元素，详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看，信道管理器负责信道的生成。具体而言，客户端的信道通过信道工厂进行实例化，而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]

蜡笔小新 2024-11-09 17:13:19
spring
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
copy
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23
install
利用ZFS和Gluster实现分布式存储系统的高效迁移与应用

本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例，展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势，为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 17:18:57
web
Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？

Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？ ... [详细]

蜡笔小新 2024-11-08 09:25:06
text
SQL Server 连接故障总结与解决方案分析

在使用 SQL Server 时，连接故障是用户最常见的问题之一。通常，连接 SQL Server 的方法有两种：一种是通过 SQL Server 自带的客户端工具，例如 SQL Server Management Studio；另一种是通过第三方应用程序或开发工具进行连接。本文将详细分析导致连接故障的常见原因，并提供相应的解决策略，帮助用户有效排除连接问题。 ... [详细]

蜡笔小新 2024-11-07 08:30:13
web
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47
post
探索阿里云RDS中MySQL的高效压缩存储引擎TokuDB应用

在过去，我曾使用过自建MySQL服务器中的MyISAM和InnoDB存储引擎（也曾尝试过Memory引擎）。今年初，我开始转向阿里云的关系型数据库服务，并深入研究了其高效的压缩存储引擎TokuDB。TokuDB在数据压缩和处理大规模数据集方面表现出色，显著提升了存储效率和查询性能。通过实际应用，我发现TokuDB不仅能够有效减少存储成本，还能显著提高数据处理速度，特别适用于高并发和大数据量的场景。 ... [详细]

蜡笔小新 2024-11-04 11:36:52

手机用户2502905845

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章