Elasticsearch搜索调优权威指南

作者：巴萨小Q | 来源：互联网 | 2023-01-05 15:43

英文原文：https:qbox.ioblogelasticsearch-search-tuning-5-0-ultimate-guide作者：AdamVanderbush译者：杨振

英文原文：https://qbox.io/blog/elasticsearch-search-tuning-5-0-ultimate-guide
作者：Adam Vanderbush
译者：杨振涛

文档建模
全局序列号和延迟
多代关系
为文件系统缓存分配内存

Elasticsearch搜索调优权威指南，是QBOX在其博客上发布的系列文章之一，本文是该系列的第一篇，主要从文档建模、内存分配、文件系统缓存、GC和硬件等方面介绍了优化查询性能的一些经验。

Elasticsearch 5.0.0确实是在2.x之后的一个大版本，为大家带来了许多新东西。Elasticsearch现在作为Elastic Stack中的一员，与整个技术栈的其他产品的版本号已经对齐，现在Kibana、Logstash、Beats和Elasticsearch全都是5.0版本了。

这个版本的Elasticsearch是目前为止最快、最安全、最弹性，也是最易用的，而且还带来了很多的改进和新特性。

我们已经通过“Elasticsearch性能调优权威指南”系列，介绍了一些性能调优的基本经验和方法，解释了每一步最关键的系统设置和衡量指标。该系列共分下列3个部分：

The Authoritative Guide to Elasticsearch Performance Tuning (Part 1)
The Authoritative Guide to Elasticsearch Performance Tuning (Part 2)
The Authoritative Guide to Elasticsearch Performance Tuning (Part 3)

索引决策也很重要，它对如何搜索数据有很大的影响。如果是一个字符串字段，是否需要分词或归一化？如果是，怎么做？如果是一个数值型属性，需要哪种精度？还有很多其他类型，比如date-time、geospatial shape以及父子关系等，需要更多特别的考虑。

我们也通过一个系列教程讨论了“Elasticsearch索引性能优化”，介绍了一些通用的技巧和方法，来最大化索引的吞吐量并降低监控和管理的负载。该教程分如下3个部分：

How to Maximize Elasticsearch Indexing Performance (Part 1)
How to Maximize Elasticsearch Indexing Performance (Part 2)
How to Maximize Elasticsearch Indexing Performance (Part 3)

本文旨在推荐一些搜索调优技术、策略以及Elasticsearch 5.0及以上的推荐特性。

Elasticsearch搜索调优权威指南（1/3）

1.文档建模

内部对象属性数组并不像期望的那样工作。Lucene 中没有内部对象的概念，所以Elasticsearch把对象层次展开到一个由属性名称和属性值组成的简单列表中。以下列文档为例：

curl -XPUT 'localhost:9200/my_index/my_type/1?pretty' -H 'Content-Type: application/json' -d '{
 "group" : "fans",
 "user" : [
   {
     "first" : "John",
     "last" :  "Smith"
   },
   {
     "first" : "Alice",
     "last" :  "White"
   }
 ]
}'

该请求会在内部转换为如下的文档形式：

{
  "group" :        "fans",
  "user.first" : [ "alice", "john" ],
  "user.last" :  [ "smith", "white" ]
}

如果需要索引对象数组，并维护数组中每个对象的依赖关系，应当使用内嵌数据类型而不是对象数据类型。内嵌对象在内部会把数组中的每个对象当作单独的隐藏文档来索引，即使用下述内嵌查询，可以单独查询每个内嵌对象：

curl -XPUT 'ES_HOST:ES_PORT/my_index?pretty' -H 'Content-Type: application/json' -d '{
 "mappings": {
   "my_type": {
     "properties": {
       "user": {
         "type": "nested"
       }
     }
   }
 }
}'

curl -XPUT 'ES_HOST:ES_PORT/my_index/my_type/1?pretty' -H 'Content-Type: application/json' -d '{
 "group" : "fans",
 "user" : [
   {
     "first" : "John",
     "last" :  "Smith"
   },
   {
     "first" : "Alice",
     "last" :  "White"
   }
 ]
}'

curl -XGET 'ES_HOST:ES_PORT/my_index/_search?pretty' -H 'Content-Type: application/json' -d '{
 "query": {
   "nested": {
     "path": "user",
     "query": {
       "bool": {
         "must": [
           { "match": { "user.first": "Alice" }},
           { "match": { "user.last":  "Smith" }}
         ]
       }
     }
   }
 }
}'

curl -XGET 'ES_HOST:ES_PORT/my_index/_search?pretty' -H 'Content-Type: application/json' -d '{
 "query": {
   "nested": {
     "path": "user",
     "query": {
       "bool": {
         "must": [
           { "match": { "user.first": "Alice" }},
           { "match": { "user.last":  "White" }}
         ]
       }
     },
     "inner_hits": {
       "highlight": {
         "fields": {
           "user.first": {}
         }
       }
     }
   }
 }
}'

当有一个主实体比如一篇博客文章，带有一些有一定关系但又不是非常重要的其他实体比如评论时，内嵌对象会非常有用。如果能根据评论内容来查询到博客文章，那就很不错，而且内嵌查询和过滤器一起提供了更快的join查询能力。

内嵌对象模型的缺点如下：

为了增加、修改或删除一个内嵌对象文档，整个文档必须重建索引；这就导致内嵌文档越多开销就越大。

搜索请求返回整个文档，而不是只返回匹配的内嵌文档。虽然已经以后计划支持返回根文档的部分最配内嵌文档，但目前仍然不支持。

有时候可能需要把主文档和其关联实体分离，这种分离由父子关系来提供。

通过建立另一个文档的父类型mapping，可以在相同索引的文档之间建立父子关系：

curl -XPUT 'ES_HOST:ES_PORT/my_index?pretty' -H 'Content-Type: application/json' -d '{
 "mappings": {
   "my_parent": {},
   "my_child": {
     "_parent": {
       "type": "my_parent"
     }
   }
 }
}'

curl -XPUT 'ES_HOST:ES_PORT/my_index/my_parent/1?pretty' -H 'Content-Type: application/json' -d '{
 "text": "This is a parent document"
}'

curl -XPUT 'ES_HOST:ES_PORT/my_index/my_child/2?parent=1&pretty' -H 'Content-Type: application/json' -d '{
 "text": "This is a child document"
}'

curl -XPUT 'ES_HOST:ES_PORT/my_index/my_child/3?parent=1&refresh=true&pretty' -H 'Content-Type: application/json' -d '{
 "text": "This is another child document"
}'

curl -XGET 'ES_HOST:ES_PORT/my_index/my_parent/_search?pretty' -H 'Content-Type: application/json' -d '{
 "query": {
   "has_child": {
     "type": "my_child",
     "query": {
       "match": {
         "text": "child document"
       }
     }
   }
 }
}'

父子join对管理实体关系非常有用，尤其是在索引时间比检索时间很重要的情形下，但是它会带来较大的开销；父子查询比同等的内嵌查询要慢5到10倍。

2.全局序列号和延迟

父子关系使用了全局序列号来加速join操作。无论父子map是否使用了内存缓存或磁盘上的doc value，全局序列号仍然需要在索引发生任何改变时进行重建。

分片中的父代越多，全局序列号构建就越耗时。相对于需要父代和较少的子代，父子关系最适合每个父代有很多子代的情形。

全局序列号默认是延迟构建：refresh后的第一个父子查询或聚合请求将会触发构建全局序列号。这会让用户感知到一个明显的潜在峰值。可以使用eager_global_ordinals 来把查询期构建全局序列号的成本转移到refresh期，通过如下方式mapping _parent属性：

curl -XPUT 'ES_HOST:ES_PORT/company -d ‘{
  "mappings": {
    "branch": {},
    "employee": {
      "_parent": {
        "type": "branch",
        "fielddata": {
          "loading": "eager_global_ordinals"
        }
      }
    }
  }
}’

这里，_parent属性的全局序列号将会在一个新的段搜索可见时被构建。

对于很多的父代，全局序列号要花费数秒钟来构建。此时，需要增加refresh_interval，以便refresh的频率更低，而全局序列号保持可用的时间更长。这将大幅减少每秒钟重建全局序列号的CPU消耗。

3.多代关系

对多代数据的Join（参考Grandparents and Grandchildren）能力听起来很吸引人，但需要思考其代价：

Join越多，性能越差。
每一个父代都需要把自己的string _id属性保存在内存，这可能会消耗大量RAM。
当考虑关系型方案及父子关系是否适合时，可参考下列关于父子关系的建议：
保守使用父子关系，仅当子代比父代多很多时才考虑。
避免在单个查询中使用多父子关系来join。
避免对使用has_child过滤器，或score_mode为 none 的has_child查询来打分。
父ID尽量简短，以便在doc value中更好地压缩，从而在瞬时加载时消耗更少的内存。

4.为文件系统缓存分配内存

对于运行中Elasticsearch，内存是需要密切监控的重要资源之一。Elasticsearch和Lucene通过JVM堆内存和文件系统缓存两种方式来消耗内存。由于Elasticsearch运行在Java虚拟机（JVM）中，所以JVM的GC周期和频率也需要重点监控。

JVM堆内存

对于Elasticsearch一个“刚好合适”的JVM堆大小是非常重要的——不能设置过大或过小，原因见后文。一般来说Elasticsearch的经验值是分配少于50%的可用RAM给JVM堆，且不要超过32GB。

为Elasticsearch分配过少的堆内存，那么就会留给Lucene更多内存，而Lucene重度依赖于文件系统缓存来快速处理请求。不管怎样也不能设置过小的堆内存，因为当应用由于频繁GC而面临短时中断时，可能会遭遇内存溢出错误或吞吐量下降。

Elasticsearch默认安装时设置的JVM堆大小为1GB，这在大多数情况下都偏小。可以通过环境变量来设置期望的对大小并重启Elasticsearch：

export ES_HEAP_SIZE=10g

设置JVM堆大小的另一种方式（相当于设置一样的最小值和最大值，以防止重新调整堆大小），是在每次启动Elasticsearch时通过命令行参数指定：

ES_HEAP_SIZE="10g" ./bin/elasticsearch

这两种示例方式都是设置了10GB的堆大小，为了验证是否设置成功，执行：

curl -XGET http://ES_HOST:9200/_cat/nodes?h=heap.max

返回的输出会显示已正确地更新了最大堆内存。

垃圾回收

Elasticsearch依靠GC过程来释放堆内存。由于GC本身也要消耗资源（为了释放资源！），所以应当留意GC频率和持续时间，以确认是否需要调整堆内存大小。设置过大的堆内存，换来的是更长的GC时间；这种过多的停顿非常危险，因为可能导致集群误认为该节点网络异常而失联。

因此，Elasticsearch重度依赖文件系统缓存来加速搜索。一般需要保证至少有一半的可用内存用于文件系统缓存，这样Elasticsearch才能保持索引数据的热点区域都在物理内存中。

使用更快的硬件

如果搜索受限于I/O，应当考虑为文件系统缓存分片更多内存（参考前文），或者购买更快的驱动。特别地，SSD公认地比机械磁盘性能好很多。尽可能使用本地存储，避免使用像 NFS 或 SMB 之类的远程或网络文件系统，也要注意像Amazon EBS这样的虚拟化存储。

Elasticsearch使用虚拟化存储工作是没有问题的，它因为快速和安装简单而受欢迎，但同样不幸的是，在基础上与专用的本地存储相比它天生就比较慢。如果在EBS上创建了一个索引库，请确认使用预分配的IOPS，否则很快就会被限流。

如果搜索受限于CPU，那么应当考虑购买更快的CPU。

推荐阅读

request
Yii2 Elasticsearch: 确保 GET /_nodes 请求的正确性与安全性

在安装并配置了Elasticsearch后，我在尝试通过GET /_nodes请求获取节点信息时遇到了问题，收到了错误消息。为了确保请求的正确性和安全性，我需要进一步排查配置和网络设置，以确保Elasticsearch集群能够正常响应。此外，还需要检查安全设置，如防火墙规则和认证机制，以防止未经授权的访问。 ... [详细]

蜡笔小新 2024-11-08 15:16:44
get
使用 Mui.js 获取复选框值的方法

本文介绍如何使用 Mui.js 框架来获取复选框的值，并通过数组进行处理和展示。 ... [详细]

蜡笔小新 2024-11-16 11:40:37
get
java rabbitmq topic_rabbitmq+topic+java

可参照github代码：https:github.comrabbitmqrabbitmq-tutorialsblobmasterjavaEmitLogTopic.ja ... [详细]

蜡笔小新 2024-11-15 18:14:04
request
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
object
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
list
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
format
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
get
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
object
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
get
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
request
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
object
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
object
深入解析 Synchronized 锁的升级机制及其在并发编程中的应用

深入解析 Synchronized 锁的升级机制及其在并发编程中的应用 ... [详细]

蜡笔小新 2024-11-11 13:09:38
format
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
regex
Lucene 4.2.1入门教程之查询构造

为什么80%的码农都做不了架构师？本文介绍了Lucene查询构造的几种方法。1.查询方式简介查询构造的方法主要有两种，第一种是Query,另外一种 ... [详细]

蜡笔小新 2024-10-12 00:33:43

巴萨小Q

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章