当前位置: 开发笔记 > 编程语言 > 正文

怎么提高ElasticSearch索引速度

作者：mobiledu2502924121 | 来源：互联网 | 2023-10-11 18:56

这篇文章主要为大家展示了“怎么提高ElasticSearch索引速度”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究

这篇文章主要为大家展示了“怎么提高ElasticSearch 索引速度”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“怎么提高ElasticSearch 索引速度”这篇文章吧。

我Google了下，大致给出的答案如下：

使用bulk API
初次索引的时候，把 replica 设置为 0
增大 threadpool.index.queue_size
增大 indices.memory.index_buffer_size
增大 index.translog.flush_threshold_ops
增大 index.translog.sync_interval
增大 index.engine.robin.refresh_interval

这篇文章会讲述上面几个参数的原理，以及一些其他的思路。这些参数大体上是朝着两个方向优化的：

减少磁盘写入
增大构建索引处理资源

一般而言，通过第二种方式的需要慎用，会对集群查询功能造成比较大的影响。

这里还有两种形态的解决方案：

关闭一些特定场景并不需要的功能，比如Translog或者Version等
将部分计算挪到其他并行计算框架上，比如数据的分片计算等，都可以放到Spark上事先算好

上面的参数都和什么有关

其中 5,6 属于 TransLog 相关。
4 则和Lucene相关
3 则因为ES里大量采用线程池，构建索引的时候，是有单独的线程池做处理的
7 的话个人认为影响不大
2 的话，能够使用上的场景有限。个人认为Replica这块可以使用Kafka的ISR机制。所有数据还是都从Primary写和读。Replica尽量只作为备份数据。

Translog

为什么要有Translog? 因为Translog顺序写日志比构建索引更高效。我们不可能每加一条记录就Commit一次，这样会有大量的文件和磁盘IO产生。但是我们又想避免程序挂掉或者硬件故障而出现数据丢失，所以有了Translog，通常这种日志我们叫做Write Ahead Log。

为了保证数据的完整性，ES默认是每次request结束后都会进行一次sync操作。具体可以查看如下方法：

该方法会调用IndexShard.sync 方法进行文件落地。

你也可以通过设置index.translog.durability=async 来完成异步落地。这里的异步其实可能会有一点点误导。前面是每次request结束后都会进行sync,这里的sync仅仅是将Translog落地。而无论你是否设置了async,都会执行如下操作：根据条件，主要是每隔sync_interval(5s) ，如果flush_threshold_ops(Integer.MAX_VALUE)，flush_threshold_size(512m),flush_threshold_period(30m) 满足对应的条件，则进行flush操作，这里除了对Translog进行Commit以外，也对索引进行了Commit。

所以如果你是海量的日志，可以容忍发生故障时丢失一定的数据，那么完全可以设置，index.translog.durability=async，并且将前面提到的flush*相关的参数调大。

而极端情况，你还可以有两个选择：

设置index.translog.durability=async，接着设置index.translog.disable_flush=true进行禁用定时flush。然后你可以通过应用程序自己手动来控制flush。
通过改写ES 去掉Translog日志相关的功能。

当然，如果去掉Translog日志有两个风险点：

Get***数据会有点问题。因为根据ID Get***数据是从Translog里拿的。
我们知道ES通过Shard Replication 保证Node节点出现故障时出现数据的完整性。在Relocating的时候，Replica 从Primary 进行Recover时，Primary会先Snapshot Lucene，然后拷贝数据到Replica,***通过回放Translog 保证数据的一致性。

Version

Version可以让ES实现并发修改，但是带来的性能影响也是极大的,这里主要有两块：

需要访问索引里的版本号，触发磁盘读写
锁机制

目前而言，似乎没有办法直接关闭Version机制。你可以使用自增长ID并且在构建索引时，index 类型设置为create。这样可以跳过版本检查。

这个场景主要应用于不可变日志导入，随着ES被越来越多的用来做日志分析，日志没有主键ID,所以使用自增ID是合适的，并且不会进行更新，使用一个固定的版本号也是合适的。而不可变日志往往是追求吞吐量。

当然，如果有必要，我们也可以通过改写ES相关代码，禁用版本管理。

分发代理

ES是对索引进行了分片(Shard)，然后数据被分发到不同的Shard。这样查询和构建索引其实都存在一个问题：

如果是构建索引，则需要对数据分拣，然后根据Shard分布分发到不同的Node节点上。

如果是查询，则对外提供的Node需要收集各个Shard的数据做Merge

这都会对对外提供的节点造成较大的压力，从而影响整个bulk/query 的速度。

一个可行的方案是，直接面向客户提供构建索引和查询API的Node节点都采用client模式，不存储数据，可以达到一定的优化效果。

另外一个较为麻烦但似乎会更优的解决方案是，如果你使用类似Spark Streaming这种流式处理程序，在***往ES输出的时候，可以做如下几件事情：

获取所有primary shard的信息，并且给所有shard带上一个顺序的数字序号，得到partition(顺序序号) -> shardId的映射关系
对数据进行repartition,分区后每个partition对应一个shard的数据
遍历这些partions,写入ES。方法为直接通过RPC 方式，类似transportService.sendRequest 将数据批量发送到对应包含有对应ShardId的Node节点上。

这样有三点好处：

所有的数据都被直接分到各个Node上直接处理。避免所有的数据先集中到一台服务器
避免二次分发，减少一次网络IO
防止***处理数据的Node压力太大而导致木桶短板效应

场景

因为我正好要做日志分析类的应用，追求高吞吐量，这样上面的三个优化其实都可以做了。一个典型只增不更新的日志入库操作，可以采用如下方案：

对接Spark Streaming,在Spark里对数据做好分片，直接推送到ES的各个节点
禁止自动flush操作，每个batch 结束后手动flush。
避免使用Version

我们可以预期ES会产生多少个新的Segment文件，通过控制batch的周期和大小，预判出ES Segment索引文件的生成大小和Merge情况。***可能减少ES的一些额外消耗

以上是“怎么提高ElasticSearch 索引速度”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程笔记行业资讯频道！

推荐阅读

go
深入解析ESFramework中的AgileTcp组件

本文详细介绍了ESFramework框架中AgileTcp组件的设计与实现。AgileTcp是ESFramework提供的ITcp接口的高效实现，旨在优化TCP通信的性能和结构清晰度。 ... [详细]

蜡笔小新 2024-12-21 13:56:06
go
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
go
SQL Server 中 INSERT 语句无法插入数据的问题分析与解决

本文探讨了在 SQL Server 中使用 JDBC 插入数据时遇到的问题。通过详细分析代码和数据库配置，提供了解决方案并解释了潜在的原因。 ... [详细]

蜡笔小新 2024-12-21 09:52:27
request
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
request
使用Fetch进行HTTP请求的基本示例

本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互，涵盖了GET、POST、PUT和DELETE请求的实现，并展示了如何处理JSON响应。 ... [详细]

蜡笔小新 2024-12-22 12:55:37
request
Java项目分层架构设计与实践

本文探讨了Java项目中应用分层的最佳实践，不仅介绍了常见的三层架构（Controller、Service、DAO），还深入分析了各层的职责划分及优化建议。通过合理的分层设计，可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]

蜡笔小新 2024-12-22 12:14:24
frameworks
java controller 继承_继承在Spring RestController

我有一个SpringRestController，它处理API调用的版本1。继承在SpringRestControllerpackagerest.v1;RestCon ... [详细]

蜡笔小新 2024-12-22 11:37:59
request
Node.js 中可写流的默认编码设置方法

本文介绍了如何在 Node.js 中使用 `setDefaultEncoding` 方法为可写流设置默认编码，并提供了详细的语法说明和示例代码。 ... [详细]

蜡笔小新 2024-12-22 10:44:58
search
探究同一请求在不同机器上返回不同HTTP状态码200和429的原因

本文探讨了为何相同的HTTP请求在两台不同操作系统（Windows与Ubuntu）的机器上会分别返回200 OK和429 Too Many Requests的状态码。我们将分析代码、环境差异及可能的影响因素。 ... [详细]

蜡笔小新 2024-12-21 19:35:11
format
黑马头条项目：Vue 文章详情模块与交互功能实现

本文详细介绍了如何在黑马头条项目中配置文章详情模块的路由、获取和展示文章详情数据，以及实现关注、点赞、不喜欢和评论功能。通过这些步骤，您可以全面了解如何开发一个完整的前端文章详情页面。 ... [详细]

蜡笔小新 2024-12-21 19:23:01
int
优化C++项目中的JSON处理：选择高性能的RapidJSON库

在高并发需求的C++项目中，我们最初选择了JsonCpp进行JSON解析和序列化。然而，在处理大数据量时，JsonCpp频繁抛出异常，尤其是在多线程环境下问题更为突出。通过分析发现，旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估，我们最终选择了RapidJSON作为替代方案，并实现了显著的性能提升。 ... [详细]

蜡笔小新 2024-12-21 18:13:59
go
版本控制工具——Git常用操作（下）

本文由云+社区发表作者：工程师小熊摘要：上一集我们一起入门学习了git的基本概念和git常用的操作，包括提交和同步代码、使用分支、出现代码冲突的解决办法、紧急保存现场和恢复 ... [详细]

蜡笔小新 2024-12-21 14:25:43
go
深入理解Python中的钩子机制及其应用

本文详细介绍了钩子（hook）的概念、原理及其在编程中的实际应用。通过对比回调函数和注册函数，解释了钩子的工作机制，并提供了具体的Python示例代码，帮助读者更好地理解和掌握这一重要编程工具。 ... [详细]

蜡笔小新 2024-12-21 12:23:00
go
深入解析 Android IPC 中的 Messenger 机制

本文详细介绍了 Android 中基于消息传递的进程间通信（IPC）机制——Messenger。通过实例和源码分析，帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]

蜡笔小新 2024-12-21 11:11:40
go
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56

mobiledu2502924121

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章