Elasticsearch排序机制详解

作者：巧干篆书_618 | 来源：互联网 | 2024-12-11 11:35

本文深入探讨了Elasticsearch中的排序功能，包括相关性排序、字段值排序、多级排序及字符串和多值字段的排序策略，旨在帮助读者更好地理解和优化搜索结果。

排序方式

为了实现基于相关性的排序，Elasticsearch 使用 _score 字段表示每个文档的相关性得分，这是一个浮点数值。默认情况下，查询结果按照 _score 降序排列。然而，并非所有查询都能产生有意义的相关性得分。例如，过滤查询不会影响 _score 的计算，所有文档的相关性得分默认为1，表明它们的相关性相同。

字段值排序

对于基于特定字段值的排序，如时间戳，Elasticsearch 支持通过 sort 参数指定排序字段及其顺序。例如，为了获取最新文档，可以使用以下查询：

GET /_search
{
  "query": {
    "bool": {
      "filter": [{ "term": { "user_id": 1 } }]
    }
  },
  "sort": [{ "date": { "order": "desc" } }]
}

此查询首先过滤出 user_id 为1的文档，然后按 date 字段降序排列。注意，此时 _score 字段不再用于排序，因此不会计算相关性得分。

默认排序

如果只需按某个字段排序，可以直接指定字段名，例如：

"sort": "number_of_children"

默认情况下，字段值按升序排列，而 _score 则按降序排列。

多级排序

在多级排序中，可以结合多个字段进行排序。例如，先按日期排序，再按相关性得分排序：

GET /_search
{
  "query": {
    "bool": {
      "must": [{ "match": { "tweet": "manage text search" } }],
      "filter": [{ "term": { "user_id": 2 } }]
    }
  },
  "sort": [
    { "date": { "order": "desc" } },
    { "_score": { "order": "desc" } }
  ]
}

多级排序首先按第一个字段排序，如果存在相同的值，则按第二个字段继续排序，依此类推。

字符串参数排序

在URL中使用 sort 参数也可以实现排序，例如：

GET /_search?sort=date:desc&sort=_score&q=search

多值字段排序

对于多值字段，Elasticsearch 允许选择特定的值进行排序，例如使用 min、max、avg 或 sum 模式。例如，按最早日期排序：

"sort": {
  "dates": {
    "order": "asc",
    "mode": "min"
  }
}

多值字段字符串排序

对于分析过的字符串字段，直接排序可能无法达到预期效果。建议使用 not_analyzed 子字段进行排序，确保字段值保持原样。例如，修改字段映射：

"tweet": {
  "type": "text",
  "analyzer": "english",
  "fields": {
    "raw": {
      "type": "keyword"
    }
  }
}

这样，tweet 字段可用于全文搜索，而 tweet.raw 子字段则用于排序。

检索词频率（TF）

检索词在文档中出现的频率越高，相关性越高。

反向文档频率（IDF）

检索词在索引中出现的频率越低，相关性越高。

字段长度准则

字段长度越短，相关性越高。

通过调整这些参数，可以优化查询结果的相关性。

理解评分标准

使用 explain 参数可以帮助理解查询结果的评分依据。例如：

GET /_search?explain=true
{
  "query": {
    "match": {
      "tweet": "honeymoon"
    }
  }
}

explain 输出详细说明了评分的计算过程，有助于调试复杂的查询。

Explain API

文档匹配原因

通过 /index/type/id/_explain 路径，可以查看特定文档为何匹配或不匹配查询。例如：

GET /us/tweet/12/_explain
{
  "query": {
    "bool": {
      "filter": [{ "term": { "user_id": 2 } }],
      "must": [{ "match": { "tweet": "honeymoon" } }]
    }
  }
}

输出结果将详细解释文档匹配的原因。

数据字段

在排序时，Elasticsearch 需要快速访问文档的字段值，为此，它将字段值加载到内存中，形成“数据字段”。这一机制提高了排序和聚合操作的性能，但也增加了内存消耗。如果内存不足，可以通过增加节点来扩展集群。

推荐阅读

copy
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
ip
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
object
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
ip
优化局域网SSH连接延迟问题的解决方案

本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置，可以显著缩短SSH连接的时间。 ... [详细]

蜡笔小新 2024-12-25 11:31:48
jsp
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
jsp
解决 IIS 中 PHP 页面无法访问的问题

本文介绍如何解决在 IIS 环境下 PHP 页面无法找到的问题。主要步骤包括配置 Internet 信息服务管理器中的 ISAPI 扩展和 Active Server Pages 设置，确保 PHP 脚本能够正常运行。 ... [详细]

蜡笔小新 2024-12-28 11:54:54
ip
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
jsp
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
process
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
ip
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
sum
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
ip
解析与处理 JSON 中的空数组

本文探讨了如何在编程中正确处理包含空数组的 JSON 对象，提供了详细的代码示例和解决方案。 ... [详细]

蜡笔小新 2024-12-26 16:33:40
object
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
ip
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
ip
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50

巧干篆书_618

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章