关于elasticsearch:搜索引擎Elasticsearch简介实践

作者：来去匆匆4_362 | 来源：互联网 | 2023-05-19 14:51

之前在寻找日志收集搜寻解决方案时，最常看到的便是ELK：Elasticsearch+Logstash+Kibana计划。只管因为它对服务器资源要求很高转而应用了Loki，但也对它初步钻研过。明天，就对其中的Elasticsearch深刻理解一番。

前言

之前在寻找日志收集搜寻解决方案时，最常看到的便是 ELK：Elasticsearch + Logstash + Kibana 计划。只管因为它对服务器资源要求很高转而应用了 Loki，但也对它初步钻研过。明天，就对其中的 Elasticsearch 深刻理解一番。

Elasticsearch 介绍

Elasticsearch 是一个开源的搜索引擎，咱们能够用它来解决文本、天文空间（如坐标）、结构化（如 DB 里的表）、非结构化（如报表、图片）等数据，而后通过简略的 REST API 对其搜寻。它的最大特点就在于分布式以及实时速度，可部署到数百甚至上千台服务器上，以便咱们存储解决海量的数据，而且其速度依然能达到秒级。

它的底层应用的是 Apache Lucene。Apache Lucene 是一个高性能、功能强大的搜索引擎库，不过它只是一个库，须要应用 Java 能力集成到应用程序中。因而，Elasticsearch 对其进行了封装，屏蔽了底层的复杂性，对外只提供了简略的 RESTful API。

当 Elasticsearch 接管到像 Logstash 这种工具传输过去的数据后便会以文档的模式去剖析提取索引，压缩数据，按配置的分片规定将数据平均存储。在实现这些后，咱们就能够进行可视化查问了，例如应用 Kibana 面板查看。

因为 Elasticsearch 具备了易用性、实时剖析、全文搜寻、散布部署、高可用等个性，所以除了用来做日志的解决剖析外，还能够利用在平安剖析、指标剖析、性能监控等场景需要。

Elasticsearch 基本概念

文档（Document）

和传统的 DB 不一样，Elasticsearch 不是将数据存储为列式的二维表，而是
采纳 Json 格局存储每一条数据，即文档是以键值对存在的字段汇合。如下就能够是一条文档：

{
    "name":         "John Smith",
    "age":          42
}

咱们也能够把文档了解为根对象，每条文档都会由惟一 \_id 标识它，如果咱们在插入文档时没有指定 \_id，则 Elasticsearch 将会主动生成一个。

索引（Index）

Elasticsearch 之所以能进行实时搜寻，最重要的就在于拿到文档数据后会对 json 里的所有字段建设索引，而且依据字段的不同类型建设不同的索引数据结构，例如 text 类型的字段会建设倒排索引，而数字和天文类型的字段会存储在 BKD 树里。这里重点介绍下倒排索引。

有倒排就有正排，咱们先来看看正排索引，所谓的正排，咱们能够简略的认为间接依据文档 \_id 获取到文档内容，只有你晓得文档 \_id。

文档 \_id	文档内容
1	Elasticsearch 简介
2	Elasticsearch 实际

而倒排索引就不一样了，它会依据字段的内容进行分词提取出多个单词，而后依据单词建设起和文档 \_id 的关联关系。后续就能够通过单词 -> 文档 \_id -> 文档内容来搜寻了。

单词	文档 \_id
Elasticsearch	1, 2
简介	1
实际	2

实际上像上述表格的第一列里的单词被称之为 term，而第二列被称之为 Posting List。在 Elasticsearch 里会对 term 进行优化以便疾速寻找，同时还会其进行压缩，以缩小存储空间。

映射类型（Mapping Types）

当文档被创立时，每个文档都会存储在一个独自的索引中，并且配以一个映射类型，以示意其文档类型，例如 twitter 索引可领有 user 类型和 tweet 类型。

每个映射类型都能够有本人的字段，例如 user 类型能够有一个 full_name 、user_name、email 字段，而 tweet 类型能够有 content 、user_name、tweeted_at 字段。

实际上，user_name 字段在这两个映射类型里是共用存储的，这意味着，这个字段只能以一种数据类型而存在。如果咱们想让 user 类型的 user_name 是 string 类型，想让
tweet 类型的 user_name 是 boolean 类型，是办不到的。

而且映射类型多了还会导致数据稠密烦扰 Lucene 的压缩文档能力。因而在 Elasticsearch 6.x 版本里只容许一个索引蕴含一个映射类型，在 7.x 版本里映射类型的概念则已被移除，变成 _doc 固定类型。

集群（Cluster）、节点（Node）

一个 ElasticSearch 实例称之为节点，当有多个实例节点一起协同工作时便称之为集群

分片（Shard）

ElasticSearch 解决的数据是十分大的，为了缩小单个实例的压力，会将数据平衡的存储在各个节点上，而一个分片就是一个底层的工作单元，它保留了全副数据中的一部分。当咱们集群扩容或放大时，Elasticsearch 会主动的在各节点中迁徙分片，使得数据依然均匀分布在集群里。

一个分片能够是主分片或者是正本分片，正本分片其实就是主分片的拷贝，即所谓的冗余备份，避免硬件故障数据失落。

ElasticSearch 装置

应用 docker 装置将非常简单，咱们只须要拉取镜像：

docker pull elasticsearch:7.2.0

而后启动：

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" -d elasticsearch:7.2.0

验证是否装置胜利：

curl http://localhost:9200

ElasticSearch 应用

ElasticSearch 提供了敌对的 API 接口供内部应用。所以，当咱们想往 ElasticSearch 输出数据、搜寻数据便能够通过 HTTP + JSON 的形式进行。甚至咱们能够间接应用 curl 命令来和 ElasticSearch 交互，例如统计文档数量：

curl -XGET 'http://localhost:9200/_count?pretty' -d '
{
    "query": {
        "match_all": {}
    }
}
'

在接管到申请，Elasticsearch 解决实现后将会返回一个 HTTP 状态码（例如：200 OK）和一个 JSON 格局的返回值，例如：

{
    "count" : 0,
    "_shards" : {
        "total" : 5,
        "successful" : 5,
        "failed" : 0
    }
}

为了书写方面，前面的申请将以简略模式出现，不再形容所有雷同的局部：主机名、端口号以及 curl 命令自身。例如以下简略格局：

GET /_count
{
    "query": {
        "match_all": {}
    }
}

事实上，如果咱们应用 kibana 的控制面板，就会发现它就是这么要求命令输出的。另外，ElasticSearch 的版本有很多，有的版本差别将十分大，上面的应用都是是针对 7.20 版本的，请知悉。

创立

文档的创立须要指定三个元数据：\_index（文档的归集所在）、\_type（文档的归类）、\_id（文档的惟一标识）。其中，\_index 是一个逻辑上的命名空间，示意具备雷同个性的文档汇合，这个汇合将会依据所有字段进行优化索引，在底层存储上则会被散发解决。

须要留神的是，因为 7.x 版本后的 _type 曾经固定为 _doc 了，所以如果咱们想要创立文档的话，能够这么发送命令：

POST my-index-000001/_doc/
{
  "@timestamp": "2099-11-15T13:12:00",
  "message": "GET /search HTTP/1.1 200 1070000",
  "user": {
    "id": "kimchy"
  }
}

此时，ElasticSearch 将会响应：

{
  "_shards": {
    "total": 2,
    "failed": 0,
    "successful": 2
  },
  "_index": "my-index-000001",
   "_type": "_doc",
  "_id": "W0tpsmIBdwcYyG50zbta",
  "_version": 1,
  "_seq_no": 0,
  "_primary_term": 1,
  "result": "created"
}

能够看到 ElasticSearch 将为咱们主动生成了 _id 字段，如果咱们的程序领有本人的标识字段，那么能够本人定义 _id 的值：

PUT /my-index-000001/_doc/1
{
  "@timestamp": "2099-11-15T13:12:00",
  "message": "GET /search HTTP/1.1 200 1070000",
  "user": {
    "id": "kimchy"
  }
}

返回如下：

{
  "_shards": {
    "total": 2,
    "failed": 0,
    "successful": 2
  },
  "_index": "my-index-000001",
   "_type": "_doc",
  "_id": "1",
  "_version": 1,
  "_seq_no": 0,
  "_primary_term": 1,
  "result": "created"
}

这样的话，如果咱们晓得文档 _id，那么就也这样获取数据了：

获取

GET /my-index-000001/_doc/1

将返回如下：

{
  "_index": "my-index-000001",
  "_type": "_doc",
  "_id": "1",
  "_version": 1,
  "_seq_no": 0,
  "_primary_term": 1,
  "found": true,
  "_source": {
      "@timestamp": "2099-11-15T13:12:00",
      "message": "GET /search HTTP/1.1 200 1070000",
      "user": {
        "id": "kimchy"
      }
    }
}

搜寻

当然，大多数时候咱们是不晓得文档 id 具体值的，所以咱们得用上面 _search 来搜寻：

GET /my-index-000001/_search?q=1.1

其中，q 示意查问任一字段蕴含 1.1 的记录。

如果咱们想要更加功能丰富的查问，那么咱们能够生成一个残缺的 body 发送过来：

{
    "query": {
        "match" : {
            "message" : "1.1"
        }
    },
    "size": 2,
    "_source": [ "message", "user" ],
}

下面示意查问 2 条记录，并且只返回字段 message，user

更新

如果咱们想要更新文档的话，能够应用上面命令：

POST //_update/<_id>

删除

如果咱们想要删除文档的话，能够应用上面命令：

DELETE //_doc/<_id>

对于更多 API 命令大伙能够查看下官网的 API ：REST APIs

总结

优良的开源框架总是能以敌对的产品状态面向开发者，毫无疑问，Elasticsearch 就具备了这个个性。它屏蔽了底层简单的逻辑概念，对外只裸露了简略易用的 API。让咱们的程序能疾速集成、疾速利用，或者这就是一个开源框架被宽泛应用的基操吧！

感兴趣的敌人能够搜一搜公众号「阅新技术」，关注更多的推送文章。
能够的话，就顺便点个赞、留个言、分享下，感激各位反对！
阅新技术，浏览更多的新常识。

推荐阅读

分布式
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
process
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
process
Bootstrap 插件使用指南

本文详细介绍了如何在 Web 前端开发中使用 Bootstrap 插件，包括自动触发插件的方法、插件的引用方式以及具体的实例。 ... [详细]

蜡笔小新 2024-11-15 12:24:25
regex
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
process
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
controller
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
process
PHP-Casbin v3.20.0 发布，性能显著提升

PHP-Casbin v3.20.0 已经发布，这是一个使用 PHP 语言开发的轻量级开源访问控制框架，支持多种访问控制模型，包括 ACL、RBAC 和 ABAC。新版本在性能上有了显著的提升。 ... [详细]

蜡笔小新 2024-11-15 10:54:38
post
微服务优雅上下线的最佳实践

本文介绍了微服务上下线的正确姿势，避免使用 kill -9 等粗暴手段，确保服务的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-14 16:22:57
post
PHP 行为日志记录详解

本文详细介绍了如何在PHP中记录和管理行为日志，包括ThinkPHP框架中的日志记录方法、日志的用途、实现原理以及相关配置。 ... [详细]

蜡笔小新 2024-11-14 09:55:11
dll
探讨HTTP隧道技术在RDP暴力破解中的应用

本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备，实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析，旨在提升网络安全意识。 ... [详细]

蜡笔小新 2024-11-12 12:08:47
dll
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
dll
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
dll
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
char
提升Android开发效率：Clean Code的最佳实践与应用

在Android开发中，提高代码质量和开发效率是至关重要的。本文介绍了如何通过Clean Code的最佳实践来优化Android应用的开发流程。以SQLite数据库操作为例，详细探讨了如何编写高效、可维护的SQL查询语句，并将其结果封装为Java对象。通过遵循这些最佳实践，开发者可以显著提升代码的可读性和可维护性，从而加快开发速度并减少错误。 ... [详细]

蜡笔小新 2024-11-07 16:41:50

来去匆匆4_362

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章