热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

java微服务分布式搜索引擎ElasticSearchKibanaRestClient操作索引库RestClient操作文档

Mysql:关系型数据库:数据在存储时数据和数据之间有一定的关联关系存储介质(存储位置):硬盘优点:不会导致数据丢失,有事务控制缺点:执行消息低事务控制redis:非关系型数据库:

Mysql:
    关系型数据库: 数据在存储时数据和数据之间有一定的关联关系
    存储介质(存储位置): 硬盘
    优点: 不会导致数据丢失,有事务控制
    缺点: 执行消息低
    事务控制
redis:
    非关系型数据库: 数据在存储时数据和数据之间没有关联关系
    存储介质(存储位置): 内存
    优点: 执行效率高
    缺点: 可能会导致数据丢失
ElasticSearch:
    非关系型数据库的一种,主要用于快速搜索
    存储介质(存储位置): 内存
    优点: 可以实现海量数据的快速搜索(检索)
    缺点: 占用内存空间较大
    作用: 用来代替Mysql的查询,提高查询效率
数据库排行榜:
    https://db-engines.com/en/


1.初识elasticsearch

1.1.了解ES



1.1.1.elasticsearch的作用

elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助我们从海量数据中快速找到需要的内容

例如:


  • 在GitHub搜索代码

  • 在电商网站搜索商品

  • 在百度搜索答案

  • 在打车软件搜索附近的车


1.1.2.ELK技术栈

elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域:

而elasticsearch是elastic stack的核心,负责存储、搜索、分析数据。

 


1.1.3.elasticsearch和lucene

elasticsearch底层是基于lucene来实现的。

Lucene是一个Java语言的搜索引擎类库,是Apache公司的顶级项目,由DougCutting于1999年研发。官网地址:Apache Lucene - Welcome to Apache Lucene 。

elasticsearch的发展历史:


  • 2004年Shay Banon基于Lucene开发了Compass

  • 2010年Shay Banon 重写了Compass,取名为Elasticsearch。

 


1.1.5.总结

什么是elasticsearch?


  • 一个开源的分布式搜索引擎,可以用来实现搜索、日志统计、分析、系统监控等功能

什么是elastic stack(ELK)?


  • 是以elasticsearch为核心的技术栈,包括beats、Logstash、kibana、elasticsearch

什么是Lucene?


  • 是Apache的开源搜索引擎类库,提供了搜索引擎的核心API


1.2.倒排索引

倒排索引的概念是基于MySQL这样的正向索引而言的。

正向索引和倒排索引

 正向索引每条数据都要判断一遍,很费性能

 

 倒排索引一开始就进行所有文档的便利,并且将每个文档的各个词条放进目录中,这样后续要查询某个词条直接到目录中查询对应的ID就可以了,后面再根据id查询详情信息

 

 


1.3.es的一些概念

elasticsearch中有很多独有的概念,与mysql中略有差别,但也有相似之处。



1.3.1.文档和字段

elasticsearch是面向文档(Document)存储的,可以是数据库中的一条商品数据,一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中:


而Json文档中往往包含很多的字段(Field),类似于数据库中的列。


1.3.2.索引和映射

索引(Index),就是相同类型的文档的集合。

例如:


  • 所有用户文档,就可以组织在一起,称为用户的索引;

  • 所有商品的文档,可以组织在一起,称为商品的索引;

  • 所有订单的文档,可以组织在一起,称为订单的索引;

 

因此,我们可以把索引当做是数据库中的表。

数据库的表会有约束信息,用来定义表的结构、字段的名称、类型等信息。因此,索引库中就有映射(mapping),是索引中文档的字段约束信息,类似表的结构约束: 比如 id唯一不为空,name string 长度10



1.3.3.mysql与elasticsearch

我们统一的把mysql与elasticsearch的概念做一下对比:


是不是说,我们学习了elasticsearch就不再需要mysql了呢?

并不是如此,两者各自有自己的擅长支出:


  • Mysql:擅长事务类型操作,可以确保数据的安全和一致性

  • Elasticsearch:擅长海量数据的搜索、分析、计算


因此在企业中,往往是两者结合使用:


  • 对安全性要求较高的写操作,使用mysql实现

  • 对查询性能要求较高的搜索需求,使用elasticsearch实现

  • 两者再基于某种方式,实现数据的同步,保证一致性

 

 

 


1.4.安装es、kibana


1.1.创建网络

因为我们还需要部署kibana容器,因此需要让es和kibana容器互联。这里先创建一个网络:

docker network create es-net

1.2.加载镜像

这里我们采用elasticsearch的7.12.1版本的镜像,这个镜像体积非常大,接近1G。不建议大家自己pull。

课前资料提供了镜像的tar包:

大家将其上传到虚拟机中,然后运行命令加载即可:

# 导入数据
docker load -i es.tar

同理还有kibana的tar包也需要这样做。


1.3.运行

运行docker命令,部署单点es:

docker run -d \
--name es \
   -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
   -e "discovery.type=single-node" \
   -v es-data:/usr/share/elasticsearch/data \
   -v es-plugins:/usr/share/elasticsearch/plugins \
   --privileged \
   --network es-net \
   -p 9200:9200 \
   -p 9300:9300 \
elasticsearch:7.12.1

命令解释:


  • -e "cluster.name=es-docker-cluster":设置集群名称

  • -e "http.host=0.0.0.0":监听的地址,可以外网访问

  • -e "ES_JAVA_OPTS=-Xms512m -Xmx512m":内存大小

  • -e "discovery.type=single-node":非集群模式

  • -v es-data:/usr/share/elasticsearch/data:挂载逻辑卷,绑定es的数据目录

  • -v es-logs:/usr/share/elasticsearch/logs:挂载逻辑卷,绑定es的日志目录

  • -v es-plugins:/usr/share/elasticsearch/plugins:挂载逻辑卷,绑定es的插件目录

  • --privileged:授予逻辑卷访问权

  • --network es-net :加入一个名为es-net的网络中

  • -p 9200:9200:端口映射配置


在浏览器中输入自己虚拟机ip加上9200端口, 即可看到elasticsearch的响应结果:

 


2.部署kibana

kibana可以给我们提供一个elasticsearch的可视化界面,便于我们学习。


2.1.部署

先加载镜像 docker load -i kibana.tar

运行docker命令,部署kibana

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601 \
kibana:7.12.1

  • --network es-net :加入一个名为es-net的网络中,与elasticsearch在同一个网络中

  • -e ELASTICSEARCH_HOSTS=http://es:9200":设置elasticsearch的地址,因为kibana已经与elasticsearch在一个网络,因此可以用容器名直接访问elasticsearch

  • -p 5601:5601:端口映射配置

kibana启动一般比较慢,需要多等待一会,可以通过命令:

docker logs -f kibana

查看运行日志,当查看到下面的日志,说明成功:

此时,在浏览器输入地址访问 5601端口就可以看到了 



2.2.DevTools

kibana中提供了一个DevTools界面,我们在左上角的三个横杠,展开后点击DevTools就可以看到:

这个界面中可以编写DSL来操作elasticsearch。并且对DSL语句有自动补全功能。

DSL就是elasticsearch提供的特殊语法,基本格式如下:

[请求方式] /[请求路径]
{
  [请求参数key1]: [请求参数value1],
  [请求参数key2]: [请求参数value2]
}

例如:

GET /_analyze
{
 "analyzer": "standard",
 "text": "白马程序员"
}

 向_analyze路径发送请求,可以实现对文本进行分词

anlyzer分词器,默认standard

 因为kibana自带的分词器对中文不友好,我们使用另外的分词器


3.安装IK分词器

3.1.在线安装ik插件(较慢)

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重启容器
docker restart elasticsearch

3.2.离线安装ik插件(推荐)


1)查看数据卷目录

安装插件需要知道elasticsearch的plugins目录位置,而我们用了数据卷挂载,因此需要查看elasticsearch的数据卷目录,通过下面命令查看:

docker volume inspect es-plugins

显示结果:

[
  {
       "CreatedAt": "2022-05-06T10:06:34+08:00",
       "Driver": "local",
       "Labels": null,
       "Mountpoint": "/var/lib/docker/volumes/es-plugins/_data",
       "Name": "es-plugins",
       "Options": null,
       "Scope": "local"
  }
]

说明plugins目录被挂载到了:/var/lib/docker/volumes/es-plugins/_data这个目录中。



3)上传到es容器的插件数据卷中

也就是/var/lib/docker/volumes/es-plugins/_data:


 


4)重启容器

# 4、重启容器
docker restart es

# 查看es日志
docker logs -f es

5)测试:

IK分词器包含两种模式:


  • ik_smart:最少切分

  • ik_max_word:最细切分


GET /_analyze
{
 "analyzer": "ik_max_word",
 "text": "今天天气太棒了"
}

运行成功 


3.3 扩展词词典

随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:“奥力给”,“传智播客” 等。

所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能。

1)打开IK分词器config目录:


2)在IKAnalyzer.cfg.xml配置文件内容添加:




       IK Analyzer 扩展配置
       
       ext.dic

3)新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改

确定编码为UTF-8 

传智播客
奥力给

4)重启elasticsearch

docker restart es

# 查看 日志
docker logs -f elasticsearch

3.4 停用词词典

在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。

IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。

1)IKAnalyzer.cfg.xml配置文件内容添加:




       IK Analyzer 扩展配置
       
       ext.dic
       
       stopword.dic

3)在 stopword.dic 添加停用词

刘德华

4)重启elasticsearch

# 重启服务
docker restart elasticsearch
docker restart kibana

# 查看 日志
docker logs -f elasticsearch

日志中已经成功加载stopword.dic配置文件

5)测试效果就可以了


1.4.3.总结

分词器的作用是什么?


  • 创建倒排索引时对文档分词

  • 用户搜索时,对输入的内容分词

IK分词器有几种模式?


  • ik_smart:智能切分,粗粒度

  • ik_max_word:最细切分,细粒度

IK分词器如何拓展词条?如何停用词条?


  • 利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典

  • 在词典中添加拓展词条或者停用词条


2.索引库操作

索引库就类似数据库表,mapping映射就类似表的结构。

我们要向es中存储数据,必须先创建“库”和“表”。



2.1.mapping映射属性

mapping是对索引库中文档的约束,常见的mapping属性包括:


  • type:字段数据类型,常见的简单类型有:


    • 字符串:text(可分词的文本)、keyword(精确值,例如:品牌、国家、ip地址)

    • 数值:long、integer、short、byte、double、float、

    • 布尔:boolean

    • 日期:date

    • 对象:object

  • index:是否创建索引,默认为true

  • analyzer:使用哪种分词器

  • properties:该字段的子字段


例如下面的json文档:

{
    "age": 21,
    "weight": 52.1,
    "isMarried": false,
    "info": "黑马程序员Java讲师",
   "email": "zy@itcast.cn",
   "score": [99.1, 99.5, 98.9],
    "name": {
        "firstName": "云",
        "lastName": "赵"
    }
}

对应的每个字段映射(mapping):


  • age:类型为 integer;参与搜索,因此需要index为true;无需分词器

  • weight:类型为float;参与搜索,因此需要index为true;无需分词器

  • isMarried:类型为boolean;参与搜索,因此需要index为true;无需分词器

  • info:类型为字符串,需要分词,因此是text;参与搜索,因此需要index为true;分词器可以用ik_smart

  • email:类型为字符串,但是不需要分词,因此是keyword;不参与搜索,因此需要index为false;无需分词器

  • score:虽然是数组,但是我们只看元素的类型,类型为float;参与搜索,因此需要index为true;无需分词器

  • name:类型为object,需要定义多个子属性


    • name.firstName;类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器

    • name.lastName;类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器


2.2.索引库的CRUD

这里我们统一使用Kibana编写DSL的方式来演示。



2.2.1.创建索引库和映射

基本语法:


  • 请求方式:PUT

  • 请求路径:/索引库名,可以自定义

  • 请求参数:mapping映射

格式:

PUT /索引库名称
{
  "mappings": {
    "properties": {
      "字段名":{
        "type": "text",
        "analyzer": "ik_smart"
      },
      "字段名2":{
        "type": "keyword",
        "index": "false"
      },
      "字段名3":{
        "properties": {
          "子字段": {
            "type": "keyword"
          }
        }
      },
     // ...略
    }
  }
}

示例:

 

 

不分词的话,index设置成false,analyzer就不用写了

 


2.2.2.查询索引库

基本语法:


  • 请求方式:GET

  • 请求路径:/索引库名

  • 请求参数:无

格式:

GET /索引库名

2.2.3.修改索引库

倒排索引结构虽然不复杂,但是一旦数据结构改变(比如改变了分词器),就需要重新创建倒排索引,这简直是灾难。因此索引库一旦创建,无法修改mapping


虽然无法修改mapping中已有的字段,但是却允许添加新的字段到mapping中,因为不会对倒排索引产生影响。

语法说明:

PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

2.2.5.总结

索引库操作有哪些?


  • 创建索引库:PUT /索引库名

  • 查询索引库:GET /索引库名

  • 删除索引库:DELETE /索引库名

  • 添加字段:PUT /索引库名/_mapping


3.文档操作

3.1.新增文档

语法:

POST /索引库名/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    "字段3": {
        "子属性1": "值3",
        "子属性2": "值4"
    },
   // ...
}

示例:

POST /heima/_doc/1
{
    "info": "三国五虎上将",
    "email": "zy@itcast.cn",
    "name": {
        "firstName": "云",
        "lastName": "赵"
    }
}

响应:



3.2.查询文档

根据rest风格,新增是post,查询应该是get,不过查询一般都需要条件,这里我们把文档id带上。

语法:

GET /{索引库名称}/_doc/{id}

通过kibana查看数据:

GET /heima/_doc/1

3.3.删除文档

删除使用DELETE请求,同样,需要根据id进行删除:

语法:

DELETE /{索引库名}/_doc/id值

示例:

# 根据id删除数据
DELETE /heima/_doc/1

3.4.修改文档

修改有两种方式:


  • 全量修改:直接覆盖原来的文档

  • 增量修改:修改文档中的部分字段



3.4.1.全量修改

全量修改是覆盖原来的文档,其本质是:


  • 根据指定的id删除文档

  • 新增一个相同id的文档

注意:如果根据id删除时,id不存在,第二步的新增也会执行,也就从修改变成了新增操作了。


语法:

PUT /{索引库名}/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
   // ... 略
}

示例:

PUT /heima/_doc/1
{
    "info": "黑马程序员高级Java讲师",
    "email": "zy@itcast.cn",
    "name": {
        "firstName": "云",
        "lastName": "赵"
    }
}

3.4.2.增量修改

增量修改是只修改指定id匹配的文档中的部分字段。

语法:

POST /{索引库名}/_update/文档id
{
    "doc": {
        "字段名": "新的值",
  }
}

示例:

POST /heima/_update/1
{
  "doc": {
    "email": "ZhaoYun@itcast.cn"
  }
}


总结

ES: 非关系型数据库
 作用: 从海量数据中快速检索出用户需要的数据信息
 原理:
ES软件本质上就是一个web项目,直接向ES发送Rest风格的请求就可以操作ES库了.
 操作ES的方式:
直接向ES发送Rest风格的请求即可.
   任何编程语言只要能够发送Rest风格的请求,就可以操作ES.
 倒排索引:
文档: 相当于Mysql中的一条记录,在ES中文档以json格式体现
   词条: 本质上就是一个中文的词语
1.先将被搜索的字段进行分词
       建立词条与文档id的对应关系 ---> 词条列表
   2.检索
       将用户输入的信息进行分词
       根据得到的词条查询词条列表,找到对应的文档id,根据文档id查询对应的文档数据
 ES与Mysql的对应关系:
Mysql   ES
       表        索引库
       行(一条记录)      文档数据(json格式)
       列(字段)       字段
       约束            映射(mapping)
 Elastic技术栈: ELK
 安装ES/安装Kibana:
默认分词器: standard
安装分词器插件: IK中文分词器
    ik_smart
    ik_max_word
 Kibana操作ES:
索引库操作:
   文档操作:

 


4. RestClient操作索引库

ES官方提供了各种不同语言的客户端,用来操作ES。这些客户端的本质就是组装DSL语句,通过http请求发送给ES。官方文档地址:Elasticsearch Clients | Elastic

其中的Java Rest Client又包括两种:


  • Java Low Level Rest Client

  • Java High Level Rest Client

我们学习的是Java HighLevel Rest Client客户端API

 

 

 


4.0.4.初始化RestClient

在elasticsearch提供的API中,与elasticsearch一切交互都封装在一个名为RestHighLevelClient的类中,必须先完成这个对象的初始化,建立与elasticsearch的连接。

分为三步:

1)引入es的RestHighLevelClient依赖:


   org.elasticsearch.client
   elasticsearch-rest-high-level-client

2)因为SpringBoot默认的ES版本是7.6.2,所以我们需要覆盖默认的ES版本:


   1.8
   7.12.1

3)初始化RestHighLevelClient:

初始化的代码如下:

RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
       HttpHost.create("http://192.168.150.101:9200")
));

这里为了单元测试方便,我们创建一个测试类HotelIndexTest,然后将初始化的代码编写在@BeforeEach方法中:

@SpringBootTest
public class HelloRestClientTest {

    private RestHighLevelClient client = null;
    /**
     * 创建RestClient对象,操作ES
     */
    @BeforeEach
    public void init() throws IOException {
        //1.创建RestClient对象用于操作ES,向ES发送rest风格的请求
//        RestHighLevelClient client = new RestHighLevelClient(
//                RestClient.builder(
//                        //new HttpHost("localhost", 9200, "http"),
//                        new HttpHost("192.168.163.141", 9200, "http")));
        client = new RestHighLevelClient(RestClient.builder(
                HttpHost.create("http://192.168.163.141:9200")
        ));
        System.out.println(client);
    }


    @Test
    public void test01(){
        System.out.println(client);
    }

    @AfterEach
    public void destory() throws IOException {
        if (client!=null){
            // 关闭客户端对象
            client.close();
        }
    }
}


4.1.创建索引库


4.1.1.代码解读

创建索引库的API如下:

代码分为三步:


  • 1)创建Request对象。因为是创建索引库的操作,因此Request是CreateIndexRequest。

  • 2)添加请求参数,其实就是DSL的JSON参数部分。因为json字符串很长,这里是定义了静态字符串常量MAPPING_TEMPLATE,让代码看起来更加优雅。

  • 3)发送请求,client.indices()方法的返回值是IndicesClient类型,封装了所有与索引库操作有关的方法。

 


4.1.2.完整示例

在hotel-demo的cn.itcast.hotel.constants包下,创建一个类,定义mapping映射的JSON字符串常量:

package cn.itcast.hotel.constants;

public class HotelConstants {
   public static final String MAPPING_TEMPLATE = "{\n" +
           " \"mappings\": {\n" +
           "   \"properties\": {\n" +
           "     \"id\": {\n" +
           "       \"type\": \"keyword\"\n" +
           "     },\n" +
           "     \"name\":{\n" +
           "       \"type\": \"text\",\n" +
           "       \"analyzer\": \"ik_max_word\",\n" +
           "       \"copy_to\": \"all\"\n" +
           "     },\n" +
           "     \"address\":{\n" +
           "       \"type\": \"keyword\",\n" +
           "       \"index\": false\n" +
           "     },\n" +
           "     \"price\":{\n" +
           "       \"type\": \"integer\"\n" +
           "     },\n" +
           "     \"score\":{\n" +
           "       \"type\": \"integer\"\n" +
           "     },\n" +
           "     \"brand\":{\n" +
           "       \"type\": \"keyword\",\n" +
           "       \"copy_to\": \"all\"\n" +
           "     },\n" +
           "     \"city\":{\n" +
           "       \"type\": \"keyword\",\n" +
           "       \"copy_to\": \"all\"\n" +
           "     },\n" +
           "     \"starName\":{\n" +
           "       \"type\": \"keyword\"\n" +
           "     },\n" +
           "     \"business\":{\n" +
           "       \"type\": \"keyword\"\n" +
           "     },\n" +
           "     \"location\":{\n" +
           "       \"type\": \"geo_point\"\n" +
           "     },\n" +
           "     \"pic\":{\n" +
           "       \"type\": \"keyword\",\n" +
           "       \"index\": false\n" +
           "     },\n" +
           "     \"all\":{\n" +
           "       \"type\": \"text\",\n" +
           "       \"analyzer\": \"ik_max_word\"\n" +
           "     }\n" +
           "   }\n" +
           " }\n" +
           "}";
}

几个特殊字段说明:


  • location:地理坐标,里面包含精度、纬度

  • all:一个组合字段,其目的是将多字段的值 利用copy_to合并,提供给用户搜索

 

在hotel-demo中的HotelIndexTest测试类中,编写单元测试,实现创建索引:

@Test
void createHotelIndex() throws IOException {
   // 1.创建Request对象
   CreateIndexRequest request = new CreateIndexRequest("hotel");
   // 2.准备请求的参数:DSL语句
   request.mapping(MAPPING_TEMPLATE, XContentType.JSON);
   // 3.发送请求
   client.indices().create(request, RequestOptions.DEFAULT);
}

4.2.删除索引库

删除索引库的DSL语句非常简单:

DELETE /hotel

与创建索引库相比:


  • 请求方式从PUT变为DELTE

  • 请求路径不变

  • 无请求参数

所以代码的差异,注意体现在Request对象上。依然是三步走:


  • 1)创建Request对象。这次是DeleteIndexRequest对象

  • 2)准备参数。这里是无参

  • 3)发送请求。改用delete方法

在hotel-demo中的HotelIndexTest测试类中,编写单元测试,实现删除索引:

@Test
void testDeleteHotelIndex() throws IOException {
   // 1.创建Request对象
   DeleteIndexRequest request = new DeleteIndexRequest("hotel");
   // 2.发送请求
   client.indices().delete(request, RequestOptions.DEFAULT);
}

4.3.判断索引库是否存在

判断索引库是否存在,本质就是查询,对应的DSL是:

GET /hotel

因此与删除的Java代码流程是类似的。依然是三步走:


  • 1)创建Request对象。这次是GetIndexRequest对象

  • 2)准备参数。这里是无参

  • 3)发送请求。改用exists方法

@Test
void testExistsHotelIndex() throws IOException {
   // 1.创建Request对象
   GetIndexRequest request = new GetIndexRequest("hotel");
   // 2.发送请求
   boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
   // 3.输出
   System.err.println(exists ? "索引库已经存在!" : "索引库不存在!");
}


4.4.总结

JavaRestClient操作elasticsearch的流程基本类似。核心是client.indices()方法来获取索引库的操作对象。

索引库操作的基本步骤:


  • 初始化RestHighLevelClient

  • 创建XxxIndexRequest。XXX是Create、Get、Delete

  • 准备DSL( Create时需要,其它是无参)

  • 发送请求。调用RestHighLevelClient#indices().xxx()方法,xxx是create、exists、delete


5.RestClient操作文档

 新增文档数据示例:

新增文档的DSL语句如下:

POST /{索引库名}/_doc/1
{
   "name": "Jack",
   "age": 21
}

对应的java代码如图:

可以看到与创建索引库类似,同样是三步走:


  • 1)创建Request对象

  • 2)准备请求参数,也就是DSL中的JSON文档

  • 3)发送请求

变化的地方在于,这里直接使用client.xxx()的API,不再需要client.indices()了。

  查询文档数据示例:

查询的DSL语句如下:

GET /hotel/_doc/{id}

非常简单,因此代码大概分两步:


  • 准备Request对象

  • 发送请求

不过查询的目的是得到结果,解析为HotelDoc,因此难点是结果的解析。完整代码如下:

 

可以看到,结果是一个JSON,其中文档放在一个_source属性中,因此解析就是拿到_source,反序列化为Java对象即可。

与之前类似,也是三步走:


  • 1)准备Request对象。这次是查询,所以是GetRequest

  • 2)发送请求,得到结果。因为是查询,这里调用client.get()方法

  • 3)解析结果,就是对JSON做反序列化

删除的DSL是这样的:

DELETE /hotel/_doc/{id}

与查询相比,仅仅是请求方式从DELETE变成GET,可以想象Java代码应该依然是三步走:


  • 1)准备Request对象,因为是删除,这次是DeleteRequest对象。要指定索引库名和id

  • 2)准备参数,无参

  • 3)发送请求。因为是删除,所以是client.delete()方法


5.1.1.索引库实体类

数据库查询后的结果是一个Hotel类型的对象。结构如下:

@Data
@TableName("tb_hotel")
public class Hotel {
   @TableId(type = IdType.INPUT)
   private Long id;
   private String name;
   private String address;
   private Integer price;
   private Integer score;
   private String brand;
   private String city;
   private String starName;
   private String business;
   private String longitude;
   private String latitude;
   private String pic;
}

与我们的索引库结构存在差异:


  • longitude和latitude需要合并为location

因此,我们需要定义一个新的类型,与索引库结构吻合:


package cn.itcast.hotel.pojo;

import lombok.Data;
import lombok.NoArgsConstructor;

@Data
@NoArgsConstructor
public class HotelDoc {
    private Long id;
    private String name;
    private String address;
    private Integer price;
    private Integer score;
    private String brand;
    private String city;
    private String starName;
    private String business;
    private String location;
    private String pic;

    public HotelDoc(Hotel hotel) {
        this.id = hotel.getId();
        this.name = hotel.getName();
        this.address = hotel.getAddress();
        this.price = hotel.getPrice();
        this.score = hotel.getScore();
        this.brand = hotel.getBrand();
        this.city = hotel.getCity();
        this.starName = hotel.getStarName();
        this.business = hotel.getBusiness();
        this.location = hotel.getLatitude() + ", " + hotel.getLongitude();
        this.pic = hotel.getPic();
    }
}


5.1.3.完整代码

我们导入酒店数据,基本流程一致,但是需要考虑几点变化:


  • 酒店数据来自于数据库,我们需要先查询出来,得到hotel对象

  • hotel对象需要转为HotelDoc对象

  • HotelDoc需要序列化为json格式

因此,代码整体步骤如下:


  • 1)根据id查询酒店数据Hotel

  • 2)将Hotel封装为HotelDoc

  • 3)将HotelDoc序列化为JSON

  • 4)创建IndexRequest,指定索引库名和id

  • 5)准备请求参数,也就是JSON文档

  • 6)发送请求

在hotel-demo的HotelDocumentTest测试类中,编写单元测试:

@Test
void testAddDocument() throws IOException {
    // 1.根据id查询酒店数据
    Hotel hotel = hotelService.getById(61083L);
    // 2.转换为文档类型
    HotelDoc hotelDoc = new HotelDoc(hotel);
    // 3.将HotelDoc转json
    String json = JSON.toJSONString(hotelDoc);

    // 1.准备Request对象
    IndexRequest request = new IndexRequest("hotel").id(hotelDoc.getId().toString());
    // 2.准备Json文档
    request.source(json, XContentType.JSON);
    // 3.发送请求
    client.index(request, RequestOptions.DEFAULT);
}


5.5.批量导入文档

案例需求:利用BulkRequest批量将数据库数据导入到索引库中。

步骤如下:


  • 利用mybatis-plus查询酒店数据

  • 将查询到的酒店数据(Hotel)转换为文档类型数据(HotelDoc)

  • 利用JavaRestClient中的BulkRequest批处理,实现批量新增文档


 

 

其实还是三步走:


  • 1)创建Request对象。这里是BulkRequest

  • 2)准备参数。批处理的参数,就是其它Request对象,这里就是多个IndexRequest

  • 3)发起请求。这里是批处理,调用的方法为client.bulk()方法


我们在导入酒店数据时,将上述代码改造成for循环处理即可。


在hotel-demo的HotelDocumentTest测试类中,编写单元测试:

@Test
void testBulkRequest() throws IOException {
   // 批量查询酒店数据
   List hotels = hotelService.list();

   // 1.创建Request
   BulkRequest request = new BulkRequest();
   // 2.准备参数,添加多个新增的Request
   for (Hotel hotel : hotels) {
       // 2.1.转换为文档类型HotelDoc
       HotelDoc hotelDoc = new HotelDoc(hotel);
       // 2.2.创建新增文档的Request对象
       request.add(new IndexRequest("hotel")
                  .id(hotelDoc.getId().toString())
                  .source(JSON.toJSONString(hotelDoc), XContentType.JSON));
  }
   // 3.发送请求
   client.bulk(request, RequestOptions.DEFAULT);
}

推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装
    一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012,引入SQLServer2012群集提高高可用性,需要对SQLServ ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • 搜索引擎技术概论(上篇):核心原理与应用分析
    搜索引擎技术概论(上篇)探讨了搜索的基本概念及其核心原理。搜索的本质在于信息检索,即用户通过输入关键词,利用特定的算法从海量数据中快速定位并提供所需信息。本文详细分析了搜索引擎的工作机制及其在实际应用中的表现。 ... [详细]
  • PHP 各版本对比:标准版与最新顶级版的详细分析 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 2021年Java开发实战:当前时间戳转换方法详解与实用网址推荐
    在当前的就业市场中,金九银十过后,金三银四也即将到来。本文将分享一些实用的面试技巧和题目,特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验,并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法,并推荐了一些实用的在线资源,帮助读者更好地应对技术面试。 ... [详细]
  • Redis 脑裂现象及其应对策略
    本文探讨了 Redis 集群中的脑裂现象及其解决方案,包括脑裂的成因、影响以及如何通过配置项防止脑裂的发生。 ... [详细]
  • 开机自启动的几种方式
    0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录,这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]
  • Webdriver中元素定位的多种技术与策略
    在Webdriver中,元素定位是自动化测试的关键环节。本文详细介绍了8种常用的元素定位技术与策略,包括ID、名称、标签名、类名、链接文本、部分链接文本、XPath和CSS选择器。每种方法都有其独特的优势和适用场景,通过合理选择和组合使用,可以显著提高测试脚本的稳定性和效率。此外,文章还探讨了在复杂页面结构中如何灵活运用这些定位技术,以应对各种挑战。 ... [详细]
  • ### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例,介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节,揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性,如响应式设计和组件定制,为开发者提供全方位的技术支持。 ... [详细]
  • 在当今的软件开发领域,分布式技术已成为程序员不可或缺的核心技能之一,尤其在面试中更是考察的重点。无论是小微企业还是大型企业,掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中,我们深入探讨了Kafka这一高效的分布式消息系统,它不仅支持发布订阅模式,还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练,学员们对Kafka的应用有了更加深刻的理解。 ... [详细]
author-avatar
渣渣
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有