当前位置: 开发笔记 > 编程语言 > 正文

Elasticsearch7.X入门学习第五课笔记Mapping设定介绍

作者：烟为你吸_811 | 来源：互联网 | 2023-06-22 20:00

Elasticsearch7.X入门学习第五课笔记-----Mapping设定介绍,Go语言社区,Golang程序员人脉社

Elasticsearch的Mapping，定义了索引的结构，类似于关系型数据库的Schema。Elasticsearch的Setting定义中定义分片和副本数以及搜索的最关键组件，即：Analyzer，也就是分析器。

一、Dynamic Mapping及常用字段类型

mapping 的定义

Mapping类似于关系型数据库的Schema，主要包含以下内容：

定义索引中字段的名称
定义字段的数据类型，如：字符串、数字、boolean等
可对字段设置倒排索引的相关配置，如是否需要分词，使用什么分词器

从7.x开始，一个Mapping只属于一个索引的type

每个文档属于一个type
一个type有且仅有一个Mapping定义
从7.x开始，不需要在Mapping中指定type信息，默认type为_doc

常用字段类型

在Elasticsearch中，字段数据类型有以下常用的类型：

简单类型
- Text / Keyword - 文本 / 关键字
- Date - 日期
- Integer / Float - 数字 / 浮点
- Boolean - 布尔值
- IPv4 / IPv6 - ip地址
复杂类型，包括对象和数组
- 对象
- 数组
特殊类型，如地理信息
- geo_point / ...

Dynamic Mapping

Dynamic Mapping 翻译为动态Mapping：

在写入文档时，如果索引不存在，会自动创建索引
这种机制，使得我们无需手动定义mappings。Elasticsearch会自动根据文档信息，推算出字段的类型
有的时候，Elasticsearch可能会推算不对，如：地理位置信息
当类型推算得不对时，可能导致一些功能无法正常运行，如Range查询。

常用类型的自动识别规则

类型	规则
字符串	匹配到日期格式，设置成Date。字符串为数字时，当成字符串处理，但我们设置转换为数字。其他情况，类型就是Text，并且会增加keyword的子字段
布尔值	Boolean
浮点数	Float
整数	Long
对象	Object
数组	由第一个非空数值的类型决定
空值	忽略

下面是具体推断 demo

# 写入文档，查看 Mapping
PUT mapping_test/_doc/1
{
  "firstName": "Chan", -- Text
  "lastName":  "Jackie", -- Text
  "loginDate": "2018-07-24T10:29:48.103Z" -- Date
}

# Dynamic Mapping，推断字段的类型
PUT mapping_test/_doc/1
{
    "uid": "123", -- Text
    "isVip": false, -- Boolean
    "isAdmin": "true", -- Text
    "age": 19, -- Long
    "heigh": 180 -- Long
}

# 查看 Dynamic Mapping
GET mapping_test/_mapping

能否更改mapping的字段类型

分两种情况：

1、新增加的字段

dynamic设为true时，新增字段的文档写入时，Mapping同时被更新
dynamic设为false时，Mapping不会被更新，新增字段的数据无法被索引，但是会出现在_source中
dynamic设为strict，文档将写入失败

2、已存在的字段，一旦数据被写入，就不再支持修改字段定义

Lucene本身的限制

如果希望更改字段类型，必须Reindex api，即：重建索引。在数据量多的时候，开销将非常大

# dynamic设置为false
PUT idx1
{
    "mapping": {
        "_doc": {
            "dynamic": "false"
        }
    }
}

# 修改为dynamic为false
PUT idx1/_mapping
{
  "dynamic": false
}

# 查看索引
GET idx1/_mapping

dynamic属性和索引字段可变性的规则，我们可以总结如下：

	true	false	strict
文档可索引	yes	yes	no
字段可索引	yes	no	no
Mapping被更新	yes	no	no

显式Mapping及常见参数

在本文的上一段落，我们的Mapping都是自动生成的。自动生成机制虽然方便，但是也可能导致一些问题。比如：生成的字段类型不正确，字段的附加属性不满足我们的需求，等等。这时，我们可以通过显式Mapping的方式来解决。

那么，我们如何进行显式Mapping的设置呢？

参考官网api，纯手写
为减少工作量，减少出错概率，可如下进行：
1. 创建一个临时index，写入一些样本数据
2. 通过访问Mapping API获取该临时文件的动态Mapping定义
3. 修改后，再使用此配置创建自己的索引
4. 删除临时索引

我们推荐使用第二种方式，效率高，且不容易出错。

控制当前字段是否被索引———index

index，可用于设置字段是否被索引，默认为true，false即为不可搜索。在下述例子中，mobile字段将不能被搜索到。

# index属性控制 字段是否可以被索引
PUT user_test
{
  "mappings": {
    "properties": {
      "firstName":{
        "type": "text"
      },
      "lastName":{
        "type": "text"
      },
      "mobile" :{
        "type": "text",
        "index": false
      }
    }
  }
}

常见参数 - index_options

记录索引级别。Text类型默认为positions，其他类型默认为docs。我们需要记住一条准则。

记录的内容越多，占用的存储空间就越大。

索引级别有以下几种，更细节的内容可参考官网

docs
freqs
positions
offsets

null_value设置

需要对Null值实现搜索时使用。只有keyword类型才支持设定null_value

# 设定Null_value
DELETE users
PUT users
{
    "mappings" : {
      "properties" : {
        "firstName" : {
          "type" : "text"
        },
        "lastName" : {
          "type" : "text"
        },
        "mobile" : {
          "type" : "keyword",
          "null_value": "NULL"
        }
      }
    }
}

PUT users/_doc/1
{
  "firstName":"Zhang",
  "lastName": "Fubing",
  "mobile": null
}

PUT users/_doc/2
{
  "firstName":"Zhang",
  "lastName": "Fubing2"
}

# 查看结果，有且仅有_id为2的记录
GET users/_search
{
  "query": {
    "match": {
      "mobile":"NULL"
    }
  }
}

copy_to

这个属性用于将当前字段拷贝到指定字段。

_all在7.x版本已经被copy_to所代替
可用于满足特定场景
copy_to将字段数值拷贝到目标字段，实现类似_all的作用
copy_to的目标字段不出现在_source中

DELETE user_test

#设置 Copy to
PUT user_test
{
  "mappings": {
    "properties": {
      "firstName":{
        "type": "text",
        "copy_to": "fullName"
      },
      "lastName":{
        "type": "text",
        "copy_to": "fullName"
      }
    }
  }
}

PUT user_test/_doc/1
{
  "firstName":"Ruan",
  "lastName": "Yiming"
}

POST user_test/_search?q=fullName:(Ruan Yiming)

数组类型

Elasticsearch不提供专门的数组类型。但任何字段，都可以包含多个相同类型的数值。

# 数组类型
PUT users/_doc/1
{
  "name":"onebird",
  "interests":"reading"
}

PUT users/_doc/1
{
  "name":"twobirds",
  "interests":["reading","music"]
}

POST users/_search
{
  "query": {
        "match_all": {}
    }
}

# interests字段还是text类型
GET users/_mapping

推荐阅读

format
如何撰写适应变化的高效代码：策略与实践

编写高质量且适应变化的代码是每位程序员的追求。优质代码的关键在于其可维护性和可扩展性。本文将从面向对象编程的角度出发，探讨实现这一目标的具体策略与实践方法，帮助开发者提升代码效率和灵活性。 ... [详细]

蜡笔小新 2024-11-09 10:20:32
format
触发器的稳态数量分析及其应用价值

本文对数据库中的SQL触发器进行了稳态数量的详细分析，探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现，揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外，还介绍了如何在Ubuntu 22.04环境下配置和使用触发器，以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]

蜡笔小新 2024-11-08 18:09:54
ip
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
filter
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
ip
PHP自学必备：从零开始的准备工作与工具选择

PHP自学必备：从零开始的准备工作与工具选择 ... [详细]

蜡笔小新 2024-11-07 15:13:09
runtime
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
format
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
header
如何通过登录PHP网站实现校园内外差异化访问：内部免费而外部需付费

该大学网站采用PHP和MySQL技术，在校内可免费访问某些外部收费资料数据库。为了方便学生校外访问，建议通过学校账号登录实现免费访问。具体方案可包括利用学校服务器作为代理，结合身份验证机制，确保合法用户在校外也能享受免费资源。 ... [详细]

蜡笔小新 2024-11-10 03:11:33
header
深入解析Java虚拟机的内存分区与管理机制

Java虚拟机的内存分区与管理机制复杂且精细。其中，某些内存区域在虚拟机启动时即创建并持续存在，而另一些则随用户线程的生命周期动态创建和销毁。例如，每个线程都拥有一个独立的程序计数器，确保线程切换后能够准确恢复到之前的执行位置。这种设计不仅提高了多线程环境下的执行效率，还增强了系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:53:02
header
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
post
如何在Docker环境中高效利用数据库？ | Baeldung

在本文中，我们将探讨如何在Docker环境中高效地管理和利用数据库。首先，需要安装Docker Desktop以确保本地环境准备就绪。接下来，可以从Docker Hub中选择合适的数据库镜像，并通过简单的命令将其拉取到本地。此外，我们还将介绍如何配置和优化这些数据库容器，以实现最佳性能和安全性。 ... [详细]

蜡笔小新 2024-11-09 19:34:33
filter
如何优化MySQL数据库性能以提升查询效率和系统稳定性

如何优化MySQL数据库性能以提升查询效率和系统稳定性 ... [详细]

蜡笔小新 2024-11-09 13:48:51
cmd
如何在C#中通过选择ComboBox项从MySQL数据库中检索数据值

本文探讨了如何在C#应用程序中通过选择ComboBox项从MySQL数据库中检索数据值。具体介绍了在事件处理方法 `comboBox2_SelectedIndexChanged` 中可能出现的常见错误，并提供了详细的解决方案和优化建议，以确保数据能够正确且高效地从数据库中读取并显示在界面上。此外，还讨论了连接字符串的配置、SQL查询语句的编写以及异常处理的最佳实践，帮助开发者避免常见的陷阱并提高代码的健壮性。 ... [详细]

蜡笔小新 2024-11-07 19:18:29
header
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
ip
Java 曾经有过配对类吗？—— 探讨 Java 中 Pair 类的历史与现状

本文探讨了 Java 中 Pair 类的历史与现状。虽然 Java 标准库中没有内置的 Pair 类，但社区和第三方库提供了多种实现方式，如 Apache Commons 的 Pair 类和 JavaFX 的 javafx.util.Pair 类。这些实现为需要处理成对数据的开发者提供了便利。此外，文章还讨论了为何标准库未包含 Pair 类的原因，以及在现代 Java 开发中使用 Pair 类的最佳实践。 ... [详细]

蜡笔小新 2024-11-06 18:56:35

烟为你吸_811

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章