热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ElasticSearch究竟是个什么东西

ElasticSearch究竟是个什么东西-听说微信搜索《Java鱼仔》会变更强!本文收录于JavaStarter,里面有我完整的Java系列文章,学习或面试都可以看看哦(

听说微信搜索《Java鱼仔》会变更强!

本文收录于JavaStarter ,里面有我完整的Java系列文章,学习或面试都可以看看哦

(一)介绍

ElasticSearch的目标就是实现搜索。在数据量少的时候,我们可以通过索引去搜索关系型数据库中的数据,但是如果数据量很大,搜索的效率就会很低,这个时候我们就需要一种分布式的搜索引擎。Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口

ES主要用于全文检索、结构化搜索以及分析。ES的应用十分广泛,比如维基百科、Github等都使用ES实现搜索。

(二)核心概念理解

2.1 数据结构

ES既然是用来搜索的,那么它必然也需要存储数据。在Mysql等关系型数据库中,数据的存储遵循下面的逻辑:

一个数据库(database)中有多个表(tables),每个表有多行数据(rows),每一行数据由多个字段(columns)组成。

ES中的存储是这样的:

一个索引(indeces)相当于一个数据库(database),每个索引中有多个类型types(相当于表结构),每个索引中有多个documents(相当于行),每个documents由多个fields组成(相当于字段)。

你可以把ES理解为他是一个面向文档的数据库。下面用一张图描述ES和关系型数据库之间的相似之处:


值得注意的是,在ES7.x版本中,types将慢慢被遗弃,在8.x版本中,types将会彻底弃用。

2.2 索引(indeces)和文档(documents)

ES中的索引和Mysql中的索引不是同一种东西,ES中的索引是一个文档的集合,索引就是一个数据库。

前面说了ES是面向文档的,文档是ES中最重要的单位,文档就是一条条的数据。文档中有几个重要的概念:

1、一篇文档中包含多个key:value

2、文档其实就是一个JSON字符串

2.3 分片

我们通过EShead创建一个索引时,他会让我们选择分片数量和副本数量


ES是一个分布式搜索引擎,分片就是把一堆数据分布到多个分片中。而索引是对每个分片的一个备份,这些副本同样能处理查询请求。

现在假设集群有两个node节点,设置分片数是5个,副本数是1个,那么数据存储结构将变成下面这样,可以保证副本和分片在不同的节点上:

2.4 倒排索引

为什么ES的搜索这么快,和其中所使用的倒排索引也有一定的关系。倒排索引建立的是分词和文档之间的映射关系。下面通过一个简单的例子来讲解一下什么是倒排索引

原来的数据中我们通过文档ID去关联标签,但是在查询时就需要遍历所有文档。通过倒排索引,我们可以通过关键词来找到最匹配的文档。

(三)ES的基本操作

ES是基于Restful风格进行操作的,因此对于习惯了写crud的程序员来说,ES很容易上手。ES的操作可以使用Kibana,也可以使用Postman直接调用,因为归根结底它就是一个restful的操作。我这里使用Idea的ES插件直接调用。
3.1 创建文档

PUT http://ip:port/索引名/类型名/文档id

{
    "key":"value"
}

因为类型名在后续的版本中将会被删除,这里可以用_doc代表默认类型:

PUT http://ip:port/索引名/_doc/文档id

下面给出操作截图

通过put创建一个索引之后,我们可以在head中看到对应的数据

3.2 创建带有数据类型的索引

3.1中创建数据时,没有指定具体的数据类型,我们当然也可以为索引指定数据类型

PUT http://ip:port/索引名
参数示例:
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "address": {
        "type": "text"
      }
    }
  }
}

ES中的核心数据类型如下:

1)字符串类型: text, keyword
(2)数字类型:long, integer, short, byte, double, float, half_float, scaled_float
(3)日期:date
(4)日期 纳秒:date_nanos
(5)布尔型:boolean6)Binary:binary
(7)Range: integer_range, float_range, long_range, double_range, date_range

3.3 查看索引或者文档的数据

通过GET请求可以查看索引以及文档的信息:

GET http://ip:port/索引名   #查看索引
GET http://ip:port/索引名/类型名/文档ID  #查看文档

3.4 修改数据

修改数据和创建数据一样,通过PUT操作就会更新原来的数据:

PUT http://ip:port/索引名/类型名/文档id
{
    "key":"value"
}

如果是修改的话,响应结果中的version就会增加。

另外一种方法是使用Post请求:

POST http://ip:port/索引名/类型名/文档id/_update
参数实例:
{
  "doc": {
    "name": "javayz4"
  }
}

更推荐使用这种方式,如果使用PUT方法忘了加某个key,更新就会变成新增

3.5 删除数据

通过DELETE的方式删除数据

DELETE http://ip:port/索引名/类型名/文档id  #删除具体的文档
DELETE http://ip:port/索引名  #删除索引
(四)ES的搜索操作

ES最重要的就是它的搜索操作了。

4.1 简单搜索

直接将搜索的参数带到链接中:

GET http://ip:port/索引名/_search?q=key:value

结果如下:

4.2 通过param传递参数

除了将参数放到链接当中,还可以将参数通过JSON请求体的方式传递,其中from和size是分页的参数query中传递查询条件_source表示结果中要展示的列,不写就表示展示所有。

GET http://ip:port/索引名/_search
参数示例:
{
  "from": 0,
  "size": 20,
  "query": {
    "match": {
      "name": "javayz2"
    }
  },
  "_source": ["name","address"]
}

除了上面示例中的这些参数之外,还有很多参数可以使用,比如排序

"sort": [
  {
    "age": {
      "order": "desc"
    }
  }
]

多条件查询:must表示下面的两个条件都要满足,还可以填should,表示任意满足其中一个条件即可,或者是must_not,表示must的相反值

"query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "javayz"
          }
        },
        {
          "match": {
            "address": "hz"
          }
        }
      ]
    }
}

如果你的数据中存在集合,可以通过空格对多个条件进行查询:


查询过程中还支持高亮查询

"highlight":{
  "pre_tags": "",
  "post_tags": "",
  "fields": {
    "name": {}
  }
}

(五)分词器

所谓分词器,就是将一段话分成一个个关键字,搜索时就按照这些关键字进行搜索。比较好用的分词器有中文的IK分词器。

5.1 基本使用

给出下载链接:https://github.com/medcl/elasticsearch-analysis-ik/releases

下载和自己ES相同的版本,在plugin目录下新建一个ik文件夹,将下载的文件解压到ik目录下,重新启动即可。

IK分词器提供了两种算法:

1、ik_smart:最少切分

2、ik_max_word:最细粒划分

首先最少切分是根据字典给出最少的切分:


ik_max_word是最细粒划分,他会给出最多的结果:

{
  "analyzer": "ik_max_word",
  "text": "我是Java工程师"
}

结果:

{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "java",
      "start_offset": 2,
      "end_offset": 6,
      "type": "ENGLISH",
      "position": 2
    },
    {
      "token": "工程师",
      "start_offset": 6,
      "end_offset": 9,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "工程",
      "start_offset": 6,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "师",
      "start_offset": 8,
      "end_offset": 9,
      "type": "CN_CHAR",
      "position": 5
    }
  ]
}

5.2 字典

对于一些名词,IK自带的字典无法区分,比如我的博客名Java鱼仔,它分词后是这样的:

因此我们需要手动去增加这样的字典,IK目录下的config/IKAnalyzer.cfg.xml中可以添加自己的字典,首先我在config下新建一个my.dic文件,里面的词汇现在只写了一个Java鱼仔。然后在配置文件中配置自己的my.dic



<properties>
        <comment>IK Analyzer 扩展配置comment>
        
        <entry key="ext_dict">my.dicentry>
         
        <entry key="ext_stopwords">entry>
        
        
        
        
properties>

重启后再次进行分词,结果如下:

如果字典无法被识别,可能是格式等问题。

(六)总结

这篇文章主要对ES的概念以及基本的操作进行讲解,项目中使用时我们会将ES集成到Springboot中。本期的分享就到这了,我是鱼仔,我们下期再见!


推荐阅读
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • SAP接口编程PyRFC 调用 BAPI_FIXEDASSET_CREATE1创建固定资产
    本篇演示通过PyRFC调用BAPI_FIXEDASSET_CREATE1在SAP系统中创建固定资产,再一次体验一下Python与其它语言相比的简洁性。首先简单说明B ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • PDO MySQL
    PDOMySQL如果文章有成千上万篇,该怎样保存?数据保存有多种方式,比如单机文件、单机数据库(SQLite)、网络数据库(MySQL、MariaDB)等等。根据项目来选择,做We ... [详细]
  • 如何查询zone下的表的信息
    本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求,并提供了请求示例。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
  • svnWebUI:一款现代化的svn服务端管理软件
    svnWebUI是一款图形化管理服务端Subversion的配置工具,适用于非程序员使用。它解决了svn用户和权限配置繁琐且不便的问题,提供了现代化的web界面,让svn服务端管理变得轻松。演示地址:http://svn.nginxwebui.cn:6060。 ... [详细]
  • classUser(db.Model):iddb.Column(db.Integer,primary_keyTrue,autoincrementTrue)#自增主键username ... [详细]
  • 20211101CleverTap参与度和分析工具功能平台学习/实践
    1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]
  • 本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式,然后详细介绍了相关API,包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List,以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较,指出了JSON的优势和缺点。 ... [详细]
author-avatar
梁言一聚
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有