Elasticsearch的进阶之路第一章Elasticsearch介绍

作者：寂寞-无解 | 来源：互联网 | 2023-05-19 17:18

Elasticsearch介绍

本章将介绍以下内容

---------------------------------------------------------------------------------------------------

Elasticsearch的前世今生

Elasticsearch是什么
Elasticsearch的特性
Elasticsearch的应用场景

欢迎各位读者阅读本章节！当我第一次接触到Elasticsearch的时候应该是在2013年，那时候的版本应该还只有0.9，我就被它优雅的语法、高可扩展性、高性能和易维护性等特点给深深的吸引住了，从此但开始了和Elasticsearch的亲密接触不解之缘。当时我在华为任搜索引擎技术顾问，负责构建华为内部所有文档的搜索引擎，使用的就是Elasticsearch，每日处理数TB的文档和超百万次的查询请求。

Elasticsearch的作者是Shay Banon，他在2010年发布了第一个版本0.4.0，而现在Elasticsearch已经发布了7.0.0的版本，全世界有数百万的开发者和公司都在使用Elasticsearch做数据搜索和数据分析。

根据db-engines的排名调查，Elasticsearch在搜索引擎的排名中稳居第一，远超其它搜索引擎的市场占有率：

Elasticsearch的进阶之路 - 第一章 - Elasticsearch介绍

注：此图来源于https://db-engines.com/en/ranking/search+engine

在所有关系性和非关系性数据库的排名中，排名第8位：

Elasticsearch的进阶之路 - 第一章 - Elasticsearch介绍

注：此图来源于https://db-engines.com/en/ranking

1. Elasticsearch的前世今生

Elasticsearch的前身是Shay Banon希望为做为厨师的妻子，编写一个可以快速查找菜谱的应用程序，搜索的底层还是基于Lucene来实现的，不过Shay Banon发现基于Lucene本身来实现搜索功能，是一件非常繁琐的事情，需要做很多重复性的工作，并且用户需要花时间去学习Lucene的语法和使用方式。

于是Shay Banon就基于Lucene编写了一些高级的特性，使其使用起来更加简单，并且使用大家熟悉的Json做为查询语句，经过一段时间的修改和完善，第一个版本 Compass就诞生了，后续的第二个迭代版本更名为Elasticsearch，并将该版本开源给用户，用户对这个版本的反响十分强烈，用户量急剧上升，然后根据后续的发展，就有了今天的Elasticsearch。

1. Elasticsearch是什么

Elasticsearch是一个底层基于Lucene库开发的分布式搜索引擎，它提供了一个在分布式环境下提供支持多用户搜索能力的全文搜索引擎，基于HTTP的RESTful接口，并使用JSON文档做为查询语句。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前最受欢迎的企业搜索引擎之一。Elasticsearch目前官方和社区支持的客户端有20多种语言实现，如Java、.NET（C＃）、PHP、Python、Apache Groovy、Ruby、GO等，完整的列表可以查看这里，可以适于各种不同的开发场景。

1. Elasticsearch的特性
  1. 面向文档

在真实的系统环境中，数据与数据之间往往都是存在着一定的关系的，数据的信息往往都是多维度的存在着，很少会存在着孤立的、简单的数据。拿我们人来举例，常常包括姓名、性别、出生年月、电话号码和家庭住址这些基本数据，也可能包括曾经就读过的不同学校，如小学、初中、高中、大学等，还可能包括一个人在不同的时间段所工作过的公司等信息。

如果我们是把这些对象的全部属性，都扁平化存储在关系型数据库的行和列中，把他们都放在一个表里面，这相当于是把一个表现力丰富的对象挤压到一个非常大的电子表格中，在后期实现查询功能的时候，又不得不在每次查询时重新构造对象。

而Elasticsearch是面向文档的，意味着它存储的是整个对象或文档，Elasticsearch不仅仅只是存储文档，而且索引每个文档的内容使之可以被用于被检索。在Elasticsearch中，我们是对文档进行索引、检索、排序和过滤，而不是对存储于关系性数据库的行列数据。这是一种完全不同的思考数据的方式，也是Elasticsearch 能支持复杂全文检索的原因。

1. 1. 全文检索

传统的数据库做搜索匹配，结果是要么匹配，要么不匹配，而做不到部分匹配的概念，这点是完全区别是传统数据库的一个概念。

如Elasticsearch的users索引库中存在以下两条记录：

{

"name":"Tom",

"hobby":"He likes go skating in the winter"

}

{

"name":"Jake",

"hobby":"He likes skating at home"

}

执行如下搜索语句：

GET /users/_search

{

"query" : {

"match" : {

"about" : "go skating"

}

搜索结果中包括了这两条记录，虽然只有第一条记录包括了“go skating”，但是第二记录包括了“skating”，实现了部分匹配。不过这里需要注意的是，虽然两条记录都查询出来了，但是他们的匹配权重是不一样的，匹配最多的会优先展示，这个会在后续的课程中讲到。

1. 1. 分布式

Elasticsearch是一个P2P协议(使用gossip协议)且天生就具有分布式特性的系统，除了集群状态管理以外，其他所有的请求都可以发送到集群内任意一台节点上，这个节点可以自己找到需要转发给哪些节点，并且直接跟这些节点通信。应用可根据本身的需求特点，最多可以将Elasticsearch横向扩展至数百（甚至数千）的服务器节点，且其同时可以处理PB级数据量的数据。由于Elasticsearch具有这些特性，因而它可服务于超大型公司，也可以运行于单机之上，服务于小微型公司。

Elasticsearch在分布式方面几乎是透明的，完全不需要用户的干预，当有新的节点增加或者有旧的节点被去掉，Elasticsearch会自动实现集群的扩展和收缩，自动实现数据的迁移的分布，并最终达到平衡。

1. 1. 数据分析

Elasticsearch通过内置的聚合函功能，通过该功能可以对数据做精细的分析，如对数据的分组（类似于SQL的Group by）、对数据进行求平均、筛选MAX或MIN数据等。

如_count是对当前索引库中所有数据的统计并返回总数结果：

GET /users/_count

{}

这个和SQL中的count函数类似，但是SQL中的count函数需要执行全表扫描才能够得到结果，而Elasticsearch中是直接获取到记录总数，速度上快很多，特别是在大数据量的情况下，差异会更加明显。

Elasticsearch的数据分析功能，再结果Kibana的展现功能，就可以组合出非常直观的报表，如下所示示例截图：

Elasticsearch的进阶之路 - 第一章 - Elasticsearch介绍

1. Elasticsearch的架构

Elasticsearch的进阶之路 - 第一章 - Elasticsearch介绍

这是一个具有3个Elasticsearch节点的集群，每个索引具有2个分片和2个副本，可以看出数据是相对均匀的分散到各个节点上，这种架构天然具有良好的扩展性和容灾性。应用程序调用Elasticsearch执行查询操作时，每个节点都应该用做请求入口，如使用轮询的方式，Elasticsearch优先会从本身节点获取数据，获取不到的分片数据再通过其它的节点获取，这样可以将查询请求压力分散到各个节点。

1. Elasticsearch的应用场景

Elasticsearch的主要功能是用于数据搜索以及数据分析，操作非常方便，使用的是易于理解的Json做为查询语句，并且有着丰富的客户端和社区支持。因而只要是涉及到数据搜索和数据分析的场景，Elasticsearch都可以大显伸手，以下是举例的一些应用场景。

电影网站	可以让用户通过搜索方便的找到自己需要的电影
电商网站	用户通过搜索，可以方便到找到自己商品
社交网站	提供给用户查找好友的功能，增加用户粘性
新闻网站数据分析	给到每篇新闻文章的作者，让他知道他的文章的公众反馈（好，坏，热门，垃圾，鄙视，崇拜）
大型源码管理	提供代码搜索功能
日志数据分析	通过ELK（Elasticsearch+Logstash+Kibana）提供方便的日志收集功能和直接日志分析展示结果

这里只是例举了部分示例，同时也说明了Elasticsearch广阔的应用场景。

后续的章节会讲Elasticsearch的安装，包括的内容：

单节点的安装、多节点的安装、安装Head插件、安装Kibana、通过Docker安装等内容

推荐阅读

spring
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
spring
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
spring
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
sum
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
install
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
express
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
express
如何安装并使用 resize2fs 和 ext2online 进行系统文件扩容

本文介绍了如何通过安装 rpm 包来使用 resize2fs 和 ext2online 工具进行系统文件的扩容。提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-13 17:51:23
express
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
window
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
window
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
format
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
format
R语言中向量（Vector）数据类型的元素索引与访问：利用中括号[]和赋值操作符在向量末尾追加数据以扩展其长度

在R语言中，向量（Vector）数据类型的元素可以通过中括号 `[]` 进行索引和访问。此外，利用中括号和赋值操作符，可以在向量的末尾追加新数据，从而动态地扩展向量的长度。这种方法不仅简洁高效，还能灵活地管理向量中的数据。 ... [详细]

蜡笔小新 2024-11-10 06:24:16
spring
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
install
利用ZFS和Gluster实现分布式存储系统的高效迁移与应用

本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例，展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势，为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 17:18:57
install
Yii2 Elasticsearch: 确保 GET /_nodes 请求的正确性与安全性

在安装并配置了Elasticsearch后，我在尝试通过GET /_nodes请求获取节点信息时遇到了问题，收到了错误消息。为了确保请求的正确性和安全性，我需要进一步排查配置和网络设置，以确保Elasticsearch集群能够正常响应。此外，还需要检查安全设置，如防火墙规则和认证机制，以防止未经授权的访问。 ... [详细]

蜡笔小新 2024-11-08 15:16:44

寂寞-无解

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章