当前位置: 开发笔记 > 编程语言 > 正文

图解ElasticSearch原理，你可收好了!

作者：wing96333 | 来源：互联网 | 2023-07-06 10:03

图解ElasticSearch原理，你可收好了!（给数据分析与开发加星标，提升数据技能）来源：Richaaaa

图解 ElasticSearch 原理&＃xff0c;你可收好了!

&＃xff08;给数据分析与开发加星标&＃xff0c;提升数据技能&＃xff09;

来源&＃xff1a;Richaaaard

Elasticsearch 是一款功能强大的开源分布式搜索与数据分析引擎&＃xff0c;目前国内诸多互联网大厂都在使用&＃xff0c;包括携程、滴滴、今日头条、饿了么、360 安全、小米、vivo 等。

除了搜索之外&＃xff0c;结合 Kibana、Logstash、Beats&＃xff0c;Elastic Stack 还被广泛运用在大数据近实时分析领域&＃xff0c;包括日志分析、指标监控、信息安全等多个领域。

它可以帮助你探索海量结构化、非结构化数据&＃xff0c;按需创建可视化报表&＃xff0c;对监控数据设置报警阈值&＃xff0c;甚至通过使用机器学习技术&＃xff0c;自动识别异常状况。

今天&＃xff0c;我们先自上而下&＃xff0c;后自底向上的介绍ElasticSearch的底层工作原理&＃xff0c;并试图回答以下问题&＃xff1a;

为什么我的搜索 *foo-bar* 无法匹配 foo-bar &＃xff1f;
为什么增加更多的文件会压缩索引&＃xff08;Index&＃xff09;&＃xff1f;
为什么 ElasticSearch 占用很多内存&＃xff1f;

图解 ElasticSearch

elasticsearch 版本: elasticsearch-2.2.0。

①云上的集群

如下图&＃xff1a;

②集群里的盒子

云里面的每个白色正方形的盒子代表一个节点——Node。

③节点之间

在一个或者多个节点直接&＃xff0c;多个绿色小方块组合在一起形成一个 ElasticSearch 的索引。

④索引里的小方块

在一个索引下&＃xff0c;分布在多个节点里的绿色小方块称为分片——Shard。

⑤Shard&＃xff1d;Lucene Index

一个 ElasticSearch 的 Shard 本质上是一个 Lucene Index。

Lucene 是一个 Full Text 搜索库&＃xff08;也有很多其他形式的搜索库&＃xff09;&＃xff0c;ElasticSearch 是建立在 Lucene 之上的。

接下来的故事要说的大部分内容实际上是 ElasticSearch 如何基于 Lucene 工作的。

图解 Lucene

Mini 索引&＃xff1a;Segment

在 Lucene 里面有很多小的 Segment&＃xff0c;我们可以把它们看成 Lucene 内部的 mini-index。

Segment 内部

Segment 内部有着许多数据结构&＃xff0c;如上图&＃xff1a;

Inverted Index
Stored Fields
Document Values
Cache

最最重要的 Inverted Index

如下图&＃xff1a;

Inverted Index 主要包括两部分&＃xff1a;

一个有序的数据字典 Dictionary&＃xff08;包括单词 Term 和它出现的频率&＃xff09;。
与单词 Term 对应的 Postings&＃xff08;即存在这个单词的文件&＃xff09;。

当我们搜索的时候&＃xff0c;首先将搜索的内容分解&＃xff0c;然后在字典里找到对应 Term&＃xff0c;从而查找到与搜索相关的文件内容。

①查询“the fury”

如下图&＃xff1a;

②自动补全&＃xff08;AutoCompletion-Prefix&＃xff09;

如果想要查找以字母“c”开头的字母&＃xff0c;可以简单的通过二分查找&＃xff08;Binary Search&＃xff09;在 Inverted Index 表中找到例如“choice”、“coming”这样的词&＃xff08;Term&＃xff09;。

③昂贵的查找

如果想要查找所有包含“our”字母的单词&＃xff0c;那么系统会扫描整个 Inverted Index&＃xff0c;这是非常昂贵的。

在此种情况下&＃xff0c;如果想要做优化&＃xff0c;那么我们面对的问题是如何生成合适的 Term。

④问题的转化

如下图&＃xff1a;

对于以上诸如此类的问题&＃xff0c;我们可能会有几种可行的解决方案&＃xff1a;

* suffix→xiffus *&＃xff0c;如果我们想以后缀作为搜索条件&＃xff0c;可以为 Term 做反向处理。
(60.6384, 6.5017)→ u4u8gyykk&＃xff0c;对于 GEO 位置信息&＃xff0c;可以将它转换为 GEO Hash。
123→{1-hundreds, 12-tens, 123}&＃xff0c;对于简单的数字&＃xff0c;可以为它生成多重形式的 Term。

⑤解决拼写错误

一个 Python 库为单词生成了一个包含错误拼写信息的树形状态机&＃xff0c;解决拼写错误的问题。

⑥Stored Field 字段查找

当我们想要查找包含某个特定标题内容的文件时&＃xff0c;Inverted Index 就不能很好的解决这个问题&＃xff0c;所以 Lucene 提供了另外一种数据结构 Stored Fields 来解决这个问题。

本质上&＃xff0c;Stored Fields 是一个简单的键值对 key-value。默认情况下&＃xff0c;ElasticSearch 会存储整个文件的 JSON source。

⑦Document Values 为了排序&＃xff0c;聚合

即使这样&＃xff0c;我们发现以上结构仍然无法解决诸如&＃xff1a;排序、聚合、facet&＃xff0c;因为我们可能会要读取大量不需要的信息。

所以&＃xff0c;另一种数据结构解决了此种问题&＃xff1a;Document Values。这种结构本质上就是一个列式的存储&＃xff0c;它高度优化了具有相同类型的数据的存储结构。

为了提高效率&＃xff0c;ElasticSearch 可以将索引下某一个 Document Value 全部读取到内存中进行操作&＃xff0c;这大大提升访问速度&＃xff0c;但是也同时会消耗掉大量的内存空间。

总之&＃xff0c;这些数据结构 Inverted Index、Stored Fields、Document Values 及其缓存&＃xff0c;都在 segment 内部。

搜索发生时

搜索时&＃xff0c;Lucene 会搜索所有的 Segment 然后将每个 Segment 的搜索结果返回&＃xff0c;最后合并呈现给客户。

Lucene 的一些特性使得这个过程非常重要&＃xff1a;

Segments 是不可变的&＃xff08;immutable&＃xff09;&＃xff1a;Delete&＃xff1f;当删除发生时&＃xff0c;Lucene 做的只是将其标志位置为删除&＃xff0c;但是文件还是会在它原来的地方&＃xff0c;不会发生改变。

Update&＃xff1f;所以对于更新来说&＃xff0c;本质上它做的工作是&＃xff1a;先删除&＃xff0c;然后重新索引&＃xff08;Re-index&＃xff09;。
随处可见的压缩&＃xff1a;Lucene 非常擅长压缩数据&＃xff0c;基本上所有教科书上的压缩方式&＃xff0c;都能在 Lucene 中找到。
缓存所有的所有&＃xff1a;Lucene 也会将所有的信息做缓存&＃xff0c;这大大提高了它的查询效率。

缓存的故事

当 ElasticSearch 索引一个文件的时候&＃xff0c;会为文件建立相应的缓存&＃xff0c;并且会定期&＃xff08;每秒&＃xff09;刷新这些数据&＃xff0c;然后这些文件就可以被搜索到。

随着时间的增加&＃xff0c;我们会有很多 Segments&＃xff0c;如下图&＃xff1a;

所以 ElasticSearch 会将这些 Segment 合并&＃xff0c;在这个过程中&＃xff0c;Segment 会最终被删除掉。

这就是为什么增加文件可能会使索引所占空间变小&＃xff0c;它会引起 Merge&＃xff0c;从而可能会有更多的压缩。

举个栗子

有两个 Segment 将会 Merge&＃xff1a;

这两个 Segment 最终会被删除&＃xff0c;然后合并成一个新的 Segment&＃xff0c;如下图&＃xff1a;

这时这个新的 Segment 在缓存中处于 Cold 状态&＃xff0c;但是大多数 Segment 仍然保持不变&＃xff0c;处于 Warm 状态。

以上场景经常在 Lucene Index 内部发生的&＃xff0c;如下图&＃xff1a;

在 Shard 中搜索

ElasticSearch 从 Shard 中搜索的过程与 Lucene Segment 中搜索的过程类似。

与在 Lucene Segment 中搜索不同的是&＃xff0c;Shard 可能是分布在不同 Node 上的&＃xff0c;所以在搜索与返回结果时&＃xff0c;所有的信息都会通过网络传输。

需要注意的是&＃xff1a;1 次搜索查找 2 个 Shard&＃xff1d;2 次分别搜索 Shard。

对于日志文件的处理&＃xff1a;当我们想搜索特定日期产生的日志时&＃xff0c;通过根据时间戳对日志文件进行分块与索引&＃xff0c;会极大提高搜索效率。

当我们想要删除旧的数据时也非常方便&＃xff0c;只需删除老的索引即可。

在上种情况下&＃xff0c;每个 Index 有两个 Shards。

如何 Scale

如下图&＃xff1a;

Shard 不会进行更进一步的拆分&＃xff0c;但是 Shard 可能会被转移到不同节点上。

所以&＃xff0c;如果当集群节点压力增长到一定的程度&＃xff0c;我们可能会考虑增加新的节点&＃xff0c;这就会要求我们对所有数据进行重新索引&＃xff0c;这是我们不太希望看到的。

所以我们需要在规划的时候就考虑清楚&＃xff0c;如何去平衡足够多的节点与不足节点之间的关系。

节点分配与 Shard 优化&＃xff1a;

为更重要的数据索引节点&＃xff0c;分配性能更好的机器。
确保每个 Shard 都有副本信息 Replica。

路由 Routing&＃xff1a;每个节点&＃xff0c;每个都存留一份路由表&＃xff0c;所以当请求到任何一个节点时&＃xff0c;ElasticSearch 都有能力将请求转发到期望节点的 Shard 进一步处理。

一个真实的请求

如下图&＃xff1a;

①Query

如下图&＃xff1a;

Query 有一个类型 filtered&＃xff0c;以及一个 multi_match 的查询。

②Aggregation

如下图&＃xff1a;

根据作者进行聚合&＃xff0c;得到 top10 的 hits 的 top10 作者的信息。

③请求分发

这个请求可能被分发到集群里的任意一个节点&＃xff0c;如下图&＃xff1a;

④上帝节点

如下图&＃xff1a;

这时这个节点就成为当前请求的协调者&＃xff08;Coordinator&＃xff09;&＃xff0c;它决定&＃xff1a;

根据索引信息&＃xff0c;判断请求会被路由到哪个核心节点。
以及哪个副本是可用的。
等等。

⑤路由

如下图&＃xff1a;

⑥在真实搜索之前

ElasticSearch 会将 Query 转换成 Lucene Query&＃xff0c;如下图&＃xff1a;

然后在所有的 Segment 中执行计算&＃xff0c;如下图&＃xff1a;

对于 Filter 条件本身也会有缓存&＃xff0c;如下图&＃xff1a;

但 Queries 不会被缓存&＃xff0c;所以如果相同的 Query 重复执行&＃xff0c;应用程序自己需要做缓存。

所以&＃xff1a;

Filters 可以在任何时候使用。
Query 只有在需要 Score 的时候才使用。

⑦返回

搜索结束之后&＃xff0c;结果会沿着下行的路径向上逐层返回&＃xff0c;如下图&＃xff1a;

- EOF -

原文地址&＃xff1a;https://mp.weixin.qq.com/s/8NIwVKs1AFq5qPKOowfJAg

推荐阅读

list
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
future
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
install
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
install
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
install
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
get
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
list
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
function
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
list
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
ip
31.项目部署

目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]

蜡笔小新 2023-12-12 12:15:41
ip
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
ip
Redis的RDB文件与AOF文件的保存与还原机制

本文介绍了Redis中RDB文件和AOF文件的保存和还原机制。RDB文件用于保存和还原Redis服务器所有数据库中的键值对数据，SAVE命令和BGSAVE命令分别用于阻塞服务器和由子进程执行保存操作。同时执行SAVE命令和BGSAVE命令，以及同时执行两个BGSAVE命令都会产生竞争条件。服务器会保存所有用save选项设置的保存条件，当满足任意一个保存条件时，服务器会自动执行BGSAVE命令。此外，还介绍了RDB文件和AOF文件在操作方面的冲突以及同时执行大量磁盘写入操作的不良影响。 ... [详细]

蜡笔小新 2023-12-12 08:51:10
get
SQL日志收缩及截断方法详解

本文详细介绍了SQL日志收缩的方法，包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时，还介绍了截断日志的原理和注意事项，包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法，可以有效减小逻辑日志的大小，提高数据库的性能。 ... [详细]

蜡笔小新 2023-12-14 18:23:25
list
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
get
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55

wing96333

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章