热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Elasticsearch排序机制详解

本文深入探讨了Elasticsearch中的排序功能,包括相关性排序、字段值排序、多级排序及字符串和多值字段的排序策略,旨在帮助读者更好地理解和优化搜索结果。
相关性排序

Elasticsearch 默认根据文档与查询的相关性进行排序,相关性得分越高,文档排名越靠前。本文将详细介绍相关性概念及其计算方法,同时探讨如何利用 sort 参数优化查询结果。


排序方式


为了实现基于相关性的排序,Elasticsearch 使用 _score 字段表示每个文档的相关性得分,这是一个浮点数值。默认情况下,查询结果按照 _score 降序排列。然而,并非所有查询都能产生有意义的相关性得分。例如,过滤查询不会影响 _score 的计算,所有文档的相关性得分默认为1,表明它们的相关性相同。


字段值排序


对于基于特定字段值的排序,如时间戳,Elasticsearch 支持通过 sort 参数指定排序字段及其顺序。例如,为了获取最新文档,可以使用以下查询:


GET /_search
{
"query": {
"bool": {
"filter": [{ "term": { "user_id": 1 } }]
}
},
"sort": [{ "date": { "order": "desc" } }]
}

此查询首先过滤出 user_id 为1的文档,然后按 date 字段降序排列。注意,此时 _score 字段不再用于排序,因此不会计算相关性得分。


默认排序


如果只需按某个字段排序,可以直接指定字段名,例如:


"sort": "number_of_children"

默认情况下,字段值按升序排列,而 _score 则按降序排列。


多级排序


在多级排序中,可以结合多个字段进行排序。例如,先按日期排序,再按相关性得分排序:


GET /_search
{
"query": {
"bool": {
"must": [{ "match": { "tweet": "manage text search" } }],
"filter": [{ "term": { "user_id": 2 } }]
}
},
"sort": [
{ "date": { "order": "desc" } },
{ "_score": { "order": "desc" } }
]
}

多级排序首先按第一个字段排序,如果存在相同的值,则按第二个字段继续排序,依此类推。


字符串参数排序


在URL中使用 sort 参数也可以实现排序,例如:


GET /_search?sort=date:desc&sort=_score&q=search

多值字段排序


对于多值字段,Elasticsearch 允许选择特定的值进行排序,例如使用 minmaxavgsum 模式。例如,按最早日期排序:


"sort": {
"dates": {
"order": "asc",
"mode": "min"
}
}

多值字段字符串排序


对于分析过的字符串字段,直接排序可能无法达到预期效果。建议使用 not_analyzed 子字段进行排序,确保字段值保持原样。例如,修改字段映射:


"tweet": {
"type": "text",
"analyzer": "english",
"fields": {
"raw": {
"type": "keyword"
}
}
}

这样,tweet 字段可用于全文搜索,而 tweet.raw 子字段则用于排序。


相关性简介

相关性评分 _score 是一个反映文档与查询相关程度的浮点数。Elasticsearch 使用 TF/IDF(Term Frequency/Inverse Document Frequency)算法计算相关性,主要包括:


检索词频率(TF)


检索词在文档中出现的频率越高,相关性越高。


反向文档频率(IDF)


检索词在索引中出现的频率越低,相关性越高。


字段长度准则


字段长度越短,相关性越高。


通过调整这些参数,可以优化查询结果的相关性。


理解评分标准


使用 explain 参数可以帮助理解查询结果的评分依据。例如:


GET /_search?explain=true
{
"query": {
"match": {
"tweet": "honeymoon"
}
}
}

explain 输出详细说明了评分的计算过程,有助于调试复杂的查询。


Explain API

文档匹配原因


通过 /index/type/id/_explain 路径,可以查看特定文档为何匹配或不匹配查询。例如:


GET /us/tweet/12/_explain
{
"query": {
"bool": {
"filter": [{ "term": { "user_id": 2 } }],
"must": [{ "match": { "tweet": "honeymoon" } }]
}
}
}

输出结果将详细解释文档匹配的原因。


数据字段

在排序时,Elasticsearch 需要快速访问文档的字段值,为此,它将字段值加载到内存中,形成“数据字段”。这一机制提高了排序和聚合操作的性能,但也增加了内存消耗。如果内存不足,可以通过增加节点来扩展集群。


推荐阅读
  • Django Admin 插件详解与应用
    本文介绍了 Django Admin 的主要功能及其在项目开发中的作用,包括如何通过模型类操作数据库、自定义 Admin 方法以及多种配置选项,旨在帮助开发者快速掌握 Django Admin 的使用技巧。 ... [详细]
  • 本文介绍的内容是组件通信的常用方式:@Input、@Output、@ViewChild、模板变量、MessageService、Broadcaster(Angular1.x$roo ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 本文详细介绍了如何在Apache Shiro框架中实现对并发登录人数的限制,包括配置和自定义过滤器的具体步骤。 ... [详细]
  • 原文链接:http:www.cnblogs.comskywang12345p3576452.html1.二叉查找树简介二叉查找树(BinarySearchTree ... [详细]
  • 本人最近在学习python,在看了一些教程后,用python写了一个简单的云音乐播放器,下面把主要代码贴上来,其中用到了gi ... [详细]
  • .NET Core中的一个接口多种实现的依赖注入与动态选择看这篇就够了
    .NETCore中的一个接口多种实现的依赖注入与动态选择看这篇就够了最近有个需求就是一个抽象仓储层接口方法需要SqlServer以及Oracle两种实现方式,为了灵活我在依赖注入的 ... [详细]
  • 京东AI创新之路:周伯文解析京东AI战略的独特之处
    2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]
  • solrCloud分布式集群安装配置
    solrCloud分布式集群安装配置1.前提安装Zookeeper集群2.安装部署多个solr节点10.41.2.82 ... [详细]
  • SE11 - 数据元素管理与维护
    本文介绍了如何在SAP系统中创建和维护数据类型,包括数据元素、域和结构体等。详细说明了每种类型的定义方式及其应用场景,并提供了创建时可能遇到问题的解决方案。 ... [详细]
  • 以及在php中同等功能的实现的简单介绍
    以及在php中同等功能的实现的简单介绍 ... [详细]
  • 本文详细探讨了如何在 C# 中使用 Infragistics 组件库解决常见的开发问题,包括工具栏按钮禁用、Grid 中的时间记录及样式设置、以及 Excel 导出功能的实现。 ... [详细]
  • 本文探讨了一个项目中遇到的挑战,即如何通过技术手段解决不同菜单项触发时,跨域IFrame页面的高度自适应问题。通过创建中介页面和利用JavaScript与Cookie机制,实现无缝的用户体验。 ... [详细]
  • 本文深入探讨了@RequestBody注解的使用场景及核心逻辑,包括其与@RequestParam的区别和结合使用的方法。文章前半部分介绍了基础知识,后半部分则详细分析了源码和重要结论。 ... [详细]
  • 本文档详细介绍了Robot Framework的基础知识、安装配置方法及其实用技巧。从环境搭建到编写第一个测试用例,涵盖了一系列实用的操作指南和最佳实践。 ... [详细]
author-avatar
巧干篆书_618
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有