Elasticsearch写入与查询的底层机制解析

作者：卍扯淡的爱卍_989 | 来源：互联网 | 2024-11-04 19:00

本文深入解析了Elasticsearch写入与查询的底层机制。在数据写入过程中，首先会将数据暂存至内存缓冲区，在此阶段数据尚不可被搜索。同时，为了保证数据的持久性和可靠性，系统会将这些数据同步记录到事务日志（translog）中。当内存缓冲区接近满载时，系统会触发刷新操作，将缓冲区中的数据写入到磁盘上的段文件中，从而使其可被搜索。此外，文章还探讨了查询过程中涉及的索引分片、倒排索引等关键技术，为读者提供了全面的技术理解。

写入数据的底层原理

数据先写入到buffer里面&＃xff0c;在buffer里面的数据时搜索不到的&＃xff0c;同时将数据写入到translog日志文件之中
如果buffer快满了&＃xff0c;或是一段时间之后&＃xff0c;就会将buffer数据refresh到一个新的OS cache之中&＃xff0c;然后每隔1秒&＃xff0c;就会将OS cache的数据写入到segment file之中&＃xff0c;但是如果每一秒钟没有新的数据到buffer之中&＃xff0c;就会创建一个新的空的segment file&＃xff0c;只要buffer中的数据被refresh到OS cache之中&＃xff0c;就代表这个数据可以被搜索到了。当然可以通过restful api 和Java api&＃xff0c;手动的执行一次refresh操作&＃xff0c;就是手动的将buffer中的数据刷入到OS cache之中&＃xff0c;让数据立马搜索到&＃xff0c;只要数据被输入到OS cache之中&＃xff0c;buffer的内容就会被清空了。同时进行的是&＃xff0c;数据到shard之后&＃xff0c;就会将数据写入到translog之中&＃xff0c;每隔5秒将translog之中的数据持久化到磁盘之中
重复以上的操作&＃xff0c;每次一条数据写入buffer&＃xff0c;同时会写入一条日志到translog日志文件之中去&＃xff0c;这个translog文件会不断的变大&＃xff0c;当达到一定的程度之后&＃xff0c;就会触发commit操作。
将一个commit point写入到磁盘文件&＃xff0c;里面标识着这个commit point 对应的所有segment file
强行将OS cache 之中的数据都fsync到磁盘文件中去。
解释&＃xff1a;translog的作用&＃xff1a;在执行commit之前&＃xff0c;所有的而数据都是停留在buffer或OS cache之中&＃xff0c;无论buffer或OS cache都是内存&＃xff0c;一旦这台机器死了&＃xff0c;内存的数据就会丢失&＃xff0c;所以需要将数据对应的操作写入一个专门的日志问价之中&＃xff0c;一旦机器出现宕机&＃xff0c;再次重启的时候&＃xff0c;es会主动的读取translog之中的日志文件的数据&＃xff0c;恢复到内存buffer和OS cache之中。
将现有的translog文件进行清空&＃xff0c;然后在重新启动一个translog&＃xff0c;此时commit就算是成功了&＃xff0c;默认的是每隔30分钟进行一次commit&＃xff0c;但是如果translog的文件过大&＃xff0c;也会触发commit&＃xff0c;整个commit过程就叫做一个flush操作&＃xff0c;我们也可以通过ES API,手动执行flush操作&＃xff0c;手动将OS cache 的数据fsync到磁盘上面去&＃xff0c;记录一个commit point&＃xff0c;清空translog文件
补充&＃xff1a;其实translog的数据也是先写入到OS cache之中的&＃xff0c;默认每隔5秒之中将数据刷新到硬盘中去&＃xff0c;也就是说&＃xff0c;可能有5秒的数据仅仅停留在buffer或者translog文件的OS cache中&＃xff0c;如果此时机器挂了&＃xff0c;会丢失5秒的数据&＃xff0c;但是这样的性能比较好&＃xff0c;我们也可以将每次的操作都必须是直接fsync到磁盘&＃xff0c;但是性能会比较差。
如果时删除操作&＃xff0c;commit的时候会产生一个.del文件&＃xff0c;里面讲某个doc标记为delete状态&＃xff0c;那么搜索的时候&＃xff0c;会根据.del文件的状态&＃xff0c;就知道那个文件被删除了。
如果时更新操作&＃xff0c;就是讲原来的doc标识为delete状态&＃xff0c;然后重新写入一条数据即可。
buffer每次更新一次&＃xff0c;就会产生一个segment file 文件&＃xff0c;所以在默认情况之下&＃xff0c;就会产生很多的segment file 文件&＃xff0c;将会定期执行merge操作
每次merge的时候&＃xff0c;就会将多个segment file 文件进行合并为一个&＃xff0c;同时将标记为delete的文件进行删除&＃xff0c;然后将新的segment file 文件写入到磁盘&＃xff0c;这里会写一个commit point&＃xff0c;标识所有的新的segment file&＃xff0c;然后打开新的segment file供搜索使用。

总之&＃xff0c;segment的四个核心概念&＃xff0c;refresh&＃xff0c;flush&＃xff0c;translog、merge

搜索的底层原理

查询过程大体上分为查询和取回这两个阶段&＃xff0c;广播查询请求到所有相关分片&＃xff0c;并将它们的响应整合成全局排序后的结果集合&＃xff0c;这个结果集合会返回给客户端。

查询阶段
1. 当一个节点接收到一个搜索请求&＃xff0c;这这个节点就会变成协调节点&＃xff0c;第一步就是将广播请求到搜索的每一个节点的分片拷贝&＃xff0c;查询请求可以被某一个主分片或某一个副分片处理&＃xff0c;协调节点将在之后的请求中轮训所有的分片拷贝来分摊负载。
2. 每一个分片将会在本地构建一个优先级队列&＃xff0c;如果客户端要求返回结果排序中从from 名开始的数量为size的结果集&＃xff0c;每一个节点都会产生一个from&＃43;size大小的结果集&＃xff0c;因此优先级队列的大小也就是from&＃43;size&＃xff0c;分片仅仅是返回一个轻量级的结果给协调节点&＃xff0c;包括结果级中的每一个文档的ID和进行排序所需要的信息。
3. 协调节点将会将所有的结果进行汇总&＃xff0c;并进行全局排序&＃xff0c;最总得到排序结果。
取值阶段
1. 查询过程得到的排序结果&＃xff0c;标记处哪些文档是符合要求的&＃xff0c;此时仍然需要获取这些文档返回给客户端
2. 协调节点会确定实际需要的返回的文档&＃xff0c;并向含有该文档的分片发送get请求&＃xff0c;分片获取的文档返回给协调节点&＃xff0c;协调节点将结果返回给客户端。

推荐阅读

string
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
string
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
string
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
version
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
string
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
string
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
join
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
string
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
case
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
post
如何在PHPCMS V9中实现多站点功能并配置独立域名与动态URL

本文介绍如何在PHPCMS V9中创建和管理多个站点，包括配置独立域名、设置动态URL，并确保各子站能够正常运行。我们将详细讲解从新建站点到最终配置路由的每一步骤。 ... [详细]

蜡笔小新 2024-12-27 05:15:58
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
python
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
python
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
audio
Unity 客户端框架设计：UI管理系统的构建

本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ... [详细]

蜡笔小新 2024-12-27 10:28:40
input
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40

卍扯淡的爱卍_989

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章