热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ElasticSearch学习笔记(1)·ES基本概念

目录一、什么是全文检索二、什么是ElasticcSearch三、ES的应用场景JSON格式数据四、ES的安装五、ES中基本概念1、接近实时(NearRealTime简


目录

  • 一、什么是全文检索
  • 二、什么是ElasticcSearch
  • 三、ES的应用场景JSON格式数据
  • 四、ES的安装
  • 五、ES中基本概念
    • 1、接近实时(Near Real Time简称NRT)
    • 2、索引(index)
    • 3、类型(Type)
    • 4、映射(Mapping)
    • 5、文档(document)


一、什么是全文检索

​ 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。

全文检索(Full-Text Retrieval(检索)以文本作为检索对象,找出含有指定词汇的文本。全面,准确和快速时衡量全文检索系统的关键指标。


关于全文检索,我们要知道

​ 1、只处理文本。

​ 2、不处理语意。

​ 3、搜索时英文不区分大小写。

​ 4、结果列表由相关度排序。



二、什么是ElasticcSearch

​ ElasticSearch简称ES,是基于Apache Lucene构建的开源搜索引擎,是当时流行的企业级搜索引擎。Lucene本身就可以被认为迄今为止性能最好的一款开源搜索引擎工具包,但是Lucene的API相对复杂,需要身后的搜索理论,很难集成到实际的应用中去,同时ES是采用java语言编写,提供了简单易用的RestFul API,开发者可以使用其简单的RestFul API,开发相关的搜索功能,从而避免Lucene的复杂性。


三、ES的应用场景JSON格式数据

​ ES主要以轻量级JSON作为数据存储格式,这点与MongoDB有点类似,但它在读写性能上优于MongoDB,同时也支持地理位置查询,还方便地理位置和文本混合查询,以及在统计、日志类数据存储和分析、可视化这方面是引领者。

国外:

​ Wikipedia(维基百科)使用ES提供全文搜索并高亮关键字,StackOverFlow结合全文搜索与地理位置查询,Github使用ES检索1300亿行的代码。

国内:

​ 百度(在云分析、网盟、预测、文案、钱包、风控等业务上都应用了ES,单集群每天导入30TB+数据,总共每天60TB+)、新浪、阿里巴巴、腾讯等公司均有对ES的使用。

使用比较广泛的平台ELS(ElasticSearch、LogStash、Kibana)


四、ES的安装

# 1、安装前准备centos7 java8elasticsearch6.2.4# 2、在官方网站下载ESwget https://artifacts.elastic.io/downloads/elasticsearch/elasticsearch-6.2.4.tar.gz# 3、配置环境变量vim /etc/profile#在文件末尾加入export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64export PATH=$PATH:$JAVA_HOME/bin# 4、重载系统配置source /etc/profile# 5、创建普通用户(es不能作为root用户启动)# a、在linux系统中创建新的组groupadd es# b、创建新的用户es并将es用户方入es组中useradd es -g es# 6、上传es到普通用户的家目录,并安装elasticsearchtar -zxvf elasticsearch-6.4.1.tar.gz# 7、elasticsearch的目录结构# bin 可执行的二进制文件的目录# config 配置文件的目录# lib 运行文件的目录# logs modules 运行时日志文件# plugins es中提供的插件# 8、运行es服务#在bin目录中执行./elasticsearch# 9、测试ES是否启动成功#在命令中断中执行,curl http://localhost:9200# 10、开启ES远程访问vim elasticsearch.yml #将原来network修改为以下配置:network.host: 0.0.0.0# 11、启动时错误解决方案### a、重新启动es出现如下错误**ERROR:bootstrap checks failed[1]: max file descriptors [4096] for elasticsearch process is too low.increase to at least [65526]**# 解决方案# 切换到root用户修改vim /etc/security/limits.conf# 在最后面追加如下内容* soft nofile 65536* hard nofile 65536* soft nproc 4096* hard nproc 4096#退出重新登入检测配置是否生效ulimit -Hnulimit -Snulimit -Huulimit -Su###b、重新启动出现如下错误**ERROR:max number of threads [3802] for user [admin] is too low,increase to at least [4096]**#解决方案:#进入limits.d目录下修改配置文件vim /etc/security/limits.d/20-nproc.conf#修改为启动ES用户名soft nproc 4096###c、重新启动出现如下错误**ERROR:max virtual memory areas vm.max_map_count [65530] is woo low,increase to at least [262144]**#解决方案:vim /etc/sysctl.confvm.max_map_count=655360#执行以下命令生效:sysctl -p

五、ES中基本概念


1、接近实时(Near Real Time简称NRT)


Elasticsearch时一个接近实时的搜索平台,这意味着,从索引一个文档直到这个文档能够被搜索到有一个请问的延迟(通常时1秒内)



2、索引(index)


一个索引就是一个拥有几分相似特征的文档的集合,比如说,你可以有一个客户数据的索引,另外一个产品目录的索引,还有一个订单数量的索引,一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字索引类似于关系型数据库中Database的概念,在一个集群中,如果你想,可以定义任意多的索引。



3、类型(Type)


一个类型是你的索引的一个逻辑上的分类/分区,其语意完全由你来定。在一个索引中,你可以定义一种或多种类型,通常,会为具有一组共同字段的文档定义一个类型。比如说,我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中,你可以为用户数据定义一个类型,为boke数据定义另一个类型,当然,也可以为评论数据定义另一个类型。类型类似于关系型数据库中Table的概念。

NOTE:在5.x版本以前可以在一个索引中定义多个类型,6.x之后版本也可以使用,但是不推荐,在8.x版本中彻底移除一个索引中创建多个类型



4、映射(Mapping)


Mapping是ES中的一个很重要的内容,**它类似于传统关系型数据库中table的schema,用于定义一个索引(index)中的类型(type)的数据的结构,**在ES中,我们可以手动创建type(相当于table)和mapping(相当于schema),也可以采用默认创建模式,在默认配置下,ES可以根据插入的数据自动创建type及其mapping。mapping中主要包括字段名,字段数据类型和字段索引类型



5、文档(document)


一个文档是一个可被索引的基础信息单元,类似于表中的一条记录。比如,你可以拥有某一个员工的文档,也可以拥有某个商品的一个文档。文档以采用了轻量级的数据交换格式JSON来表示


ElasticSearch学习笔记(1)· ES基本概念
ElasticSearch学习笔记(2)· 基于Kibana的基本CRUD
ElasticSearch学习笔记(3)· ES高级检索(query)
ElasticSearch学习笔记(4)· ES IK分词器
ElasticSearch学习笔记(5)· Java操作Elasticsearch6.2.4
ElasticSearch学习笔记(6)· Java操作Elasticsearch7.6.1
ElasticSearch学习笔记(7)· Springboot+SpringData操作ES
ElasticSearch学习笔记(8)· ES集群的搭建


推荐阅读
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 本文介绍了前端人员必须知道的三个问题,即前端都做哪些事、前端都需要哪些技术,以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外,还介绍了一些后端服务,如Node.js。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 如何实现JDK版本的切换功能,解决开发环境冲突问题
    本文介绍了在开发过程中遇到JDK版本冲突的情况,以及如何通过修改环境变量实现JDK版本的切换功能,解决开发环境冲突的问题。通过合理的切换环境,可以更好地进行项目开发。同时,提醒读者注意不仅限于1.7和1.8版本的转换,还要适应不同项目和个人开发习惯的需求。 ... [详细]
  • Android源码中的Builder模式及其作用
    本文主要解释了什么是Builder模式以及其作用,并结合Android源码来分析Builder模式的实现。Builder模式是将产品的设计、表示和构建进行分离,通过引入建造者角色,简化了构建复杂产品的流程,并且使得产品的构建可以灵活适应变化。使用Builder模式可以解决开发者需要关注产品表示和构建步骤的问题,并且当构建流程发生变化时,无需修改代码即可适配新的构建流程。 ... [详细]
  • 本文介绍了JavaScript进化到TypeScript的历史和背景,解释了TypeScript相对于JavaScript的优势和特点。作者分享了自己对TypeScript的观察和认识,并提到了在项目开发中使用TypeScript的好处。最后,作者表示对TypeScript进行尝试和探索的态度。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 安卓select模态框样式改变_微软Office风格的多端(Web、安卓、iOS)组件库——Fabric UI...
    介绍FabricUI是微软开源的一套Office风格的多端组件库,共有三套针对性的组件,分别适用于web、android以及iOS,Fab ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • 本文介绍了RxJava在Android开发中的广泛应用以及其在事件总线(Event Bus)实现中的使用方法。RxJava是一种基于观察者模式的异步java库,可以提高开发效率、降低维护成本。通过RxJava,开发者可以实现事件的异步处理和链式操作。对于已经具备RxJava基础的开发者来说,本文将详细介绍如何利用RxJava实现事件总线,并提供了使用建议。 ... [详细]
author-avatar
捕鱼达人2602881157
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有