热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Lucene全文检索技术入门

一、搜索引擎的历史萌芽:Archie、Gopher起步:Robot(网络机器人)的出现与spider(网络爬虫)发展:excite、galax


一、 搜索引擎的历史

         萌芽:Archie、Gopher

         起步:Robot(网络机器人)的出现与spider(网络爬虫)

         发展:excite、galaxy、yahoo

         繁荣:infoseek,altaVista,Google和baidu

 

搜索技术发展依赖网络机器人和网络爬虫

         网络机器人:互联网上完成特定功能的程序

         网络爬虫:专门用于搜索领域程序,主要目的,去互联网上 下载需要资源

 

二、 搜索技术在日常中应用

         本地软件 : 文档内检索、本地文件检索、 myeclipse 帮助文档索引

         站内检索 : BBS和BLOG 提供文章搜索功能 (贴吧)

         垂直网站资源检索 : 818 工作网 (显示智联招聘、前程无忧等招聘网站的查询结果 )

         互联网中各种资源的搜索 : baidu、google (所有领域的资源)

 

信息检索的过程

         1)构建文本库

         2)建立索引

         3)进行搜索

         4)对结果进行排序

 

三、 倒排索引

         传统查找采用线性查询,从前向后查找

         使用倒排索引,将关键单词出现位置建立索引,通过查询索引库,获知内容位置,对于文档很大的情况,检索效率也是非常高的

 

四、 lucene 快速入门

         Lucene:一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供,Lucene提供了一                         个简单却强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成                     熟的免费开放源代码工具

注:Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品,lucene可以对任何资源建立索引,      前提必须要获得资源对应文本内容

 

课程以3.6.2 讲解, 最新版本 lucene4.3  (lucene4 和 lucene3 开发差别很大 )

         ApacheSolr: Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器

 

什么是全文检索

全文检索:计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章                              中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查                         找的结果反馈给用户的检索方式

入门步骤

         1、 去官网下载 lucene 开发包

                   lucene目录: 开发核心包 lucene-core-3.6.2.jar 

                   contrib目录:存放插件包

                   docs目录:存放文档

 

         2、 使用lucene 在原有数据存储上, 对数据建立索引

                   软件开发,数据应该保存在数据库, 数据库中提供索引技术 

 

lucene索引与数据库的索引功能的区别

         数据库不可能对所有字段建立索引(默认根据主键、外键有约束列检索索引),数据库建立索引并没      有采用分词算法(也不是全文索引),lucene可以对目标文件分层进行全文检索,lucene在做模糊查询   的时候,数据库是不能做索引的,而lucene的优点主要发生在模糊查询上的索引建立上。

 

3、 对存储数据转换Document(lucene框架中可以被索引的数据对象 )

         Field(Stringname, String value, Field.Store store, Field.Index index)  代表一个字段


4、 生成索引


5、 通过第三方工具 Luke 查看索引文件内容

    注:luke 只能支持到 lucene3.x

         lukeall-3.5.0.jar可执行jar文件 、 DOS命令行运行方式java -jar 文件名

        


6、 索引库的查询

 

Lucene开发 API详细分析

1、 包结构


         2、 创建索引相关 API

         Directory  索引操作目录

         Analyzer   分词器

         Document索引中文档对象

         Field文档内部数据信息

         IndexWriterConfig索引生成配置信息

         IndexWriter  索引生成对象

基本步骤:

·第一步 : 指定创建索引目录

         Directorydirectory = FSDirectory.open(new File("index")); // FSDirectory 打开磁盘目录

·第二步 : 指定分词器

    new StandardAnalyzer(Version.LUCENE_36); 建立标准分词器

         使用不同版本lucene 需要传入不同 Version对象

·第三步 : 转换数据为Document对象

    document.add(new Field(name, value ,store, index)) ;

          name : 通常实体类属性名

          value : 属性值

          store : Store.YES 存储 、Store.NO  不存储

                   注:这里存储指的就是,是否将数据保存到document文档数据区

          index : 是否索引

                   Index.NO  不建立索引 (在索引区没有数据,该字段不可以查询)

                   Index.ANALYZED分词建立索引 "lucene入门" ----- "lucene","入" ,"门"

                   Index.NOT_ANALYZED不分词建立索引  "lucene入门" ---- "lucene入门"

                   Index.ANALYZED_NO_NORMS  分词建立索引,不存放权重信息

                   Index.NOT_ANALYZED_NO_NORMS不分词建立索引,不存放权重信息

                   注:NORMS(权重):影响排名,计算得分,如果 ANALYZED_NO_NORMS不存放权重信息,默认                                     值为1.0 NORM 由分词频率决定,如果不存放权重,性能更好

·第四步 创建索引

                   indexWriterConfig.setOpenMode(OpenMode.APPEND);//默认索引追加

                   indexWriterConfig.setOpenMode(OpenMode.CREATE);//每次新建索引库

        

案例: 通过图书案例,了解哪些数据需要存储的,哪些数据需要索引的

         书号:存储、索引、不分词(用户输入完整书号,不用模糊查询)

         书名:存储、索引、分词(用户输入部分书名模糊查询)

         作者名:存储、索引、不分词

         书的出版日期:存储(用户没有查询要求)

         书的摘要:索引、分词(没有完整显示信息需要)

         书的价格:存储(不查询、需要显示)

注:数据要不要被查询 -----要就索引,不要就不索引

         数据查询时是完整查询还是模糊查询 ----完整查询就不分词,模糊查询就分词

         查询数据结果中要不要有该数据 ----有就存储,没有就不存储

 

3、 如果多个线程同时对一个索引库进行写入,是不可以的

         当创建一个 IndexWriter的时候,就会对索引库进行加锁,确保同一时间只能由一个IndexWriter向索引库写入,如果当对一个索引库创建了多个 IndexWriter时会发生异常:org.apache.lucene.store.LockObtainFailedException: Lock obtain timed out:NativeFSLock@D:\work\javaee20130222\lucene3_day1\index\write.lock

         解决方法:确保一个索引库只能有一个IndexWriter对象,需要创建工具类,将其放到static块中

 

4、 查询索引API 详细分析

QueryParser 查询解析器,将查询字符串解析为Query对象

  *  MultiFieldQueryParser 可以匹配多个Field

默认QueryParser 只能查询 一个Field,如果要从多个Field中进行查询,使用 MultiFieldQueryParser


Term  搜索分词的最小单位

      一个Term对象有两个String类型的域组成:字段的名称和字段的值

TermQuery 搜索最小单位的查询(不用分词器)


IndexSearcher 索引查询对象

         对于IndexSearcher 对象没有线程安全问题,如果将IndexSearch获得写入工具方法,该对象无需static

TopDocs 查询结果排名前n文档对象

         totalHits属性:代表查询的总结果数

         scoreDocs属性:返回得分文档数组

ScoreDoc 得分文档对象

         store属性 查询得分

         doc属性 文档内部编号

 

ssh环境中使用 lucene对数据进行索引(提高hibernate检索性能

         注:需要在进行数据表增删改查同时, 维护索引库的增删改查

1、 实现SSH 的CURD 操作

2、 在CURD 数据库表的同时, 操作索引库

         导入 lucene-core-3.6.2.jar

3、 在保存Article文章数据时,为Article对象数据创建索引

                  编写工具类ArticleDocumentUtils ,完成 Article对象 和 Document 相互转换


                  编写工具类Configuration提供获得索引Directory对象和 Analyzzer 分词器


                  编写工具类LuceneUtils 获得 IndexWriter和IndexSearcher


4、 索引CURD

         添加索引 indexWriter.addDocument(document);


         删除索引 


         修改索引  indexWriter.updateDocument(term,document);

         注:(不进行修改,因为性能很差),一般都是先删除再创建。


         查询索引 (用于非主键字段 like模糊查询,先查询索引库获得数据id ,再通过id 查询数据表)

         注:根据id 查询基本上不用索引库,因为数据库的本身对 id 有索引,只需查询数据库就行了。

 

索引的调优

1、 合并因子 mergeFactor

         默认情况下,每创建一个对象就会创建一组索引文件

         例:通过 mergePolicy.setMergeFactor(4); 设置合并因子(四个对象以上创建索引就合并)


        手动合并索引方法  LuceneUtils.get IndexWriter().optimize();(已过时)

         好处: 减少硬盘上索引文件数量

2、   使用RAMDirectory

         RAMDirectory是内存的一个区域,当虚拟机退出后,里面的内容也会随之消失,RAMDirectory的性能         要好于FSDirectory, 因此可以结合使用,在虚拟机退出时,将RAM内容转到FSDirectory

 

案例一 : 使用RAMDirectory  ,当虚拟机退出,索引库数据丢失

        

案例二: JVM运行时,读取FSDirectory中索引 ---- RAMDirectory  操作RAMDirectory

                   在JVM 停止之前,将RAMDirectory 数据写入 FSDirectory 

         注意:必须设置 OpenMode.CREATE,否则会多出分词数据。


推荐阅读
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍了如何准备和安装 Eclipse 开发环境及其相关插件,包括 JDK、Tomcat、Struts 等组件的安装步骤及配置方法。 ... [详细]
  • Struts与Spring框架的集成指南
    本文详细介绍了如何将Struts和Spring两个流行的Java Web开发框架进行整合,涵盖从环境配置到代码实现的具体步骤。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法,通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点,并保持在文档树中。 ... [详细]
  • 本文详细介绍了Linux系统中init进程的作用及其启动过程,解释了运行级别的概念,并提供了调整服务启动顺序的具体步骤和实例。通过了解这些内容,用户可以更好地管理系统的启动流程和服务配置。 ... [详细]
  • 探讨了小型企业在构建安全网络和软件时所面临的挑战和机遇。本文介绍了如何通过合理的方法和工具,确保小型企业能够有效提升其软件的安全性,从而保护客户数据并增强市场竞争力。 ... [详细]
  • 创建项目:Visual Studio Online 入门指南
    本文介绍如何使用微软的 Visual Studio Online(VSO)创建和管理开发项目。作为一款基于云计算的开发平台,VSO 提供了丰富的工具和服务,简化了项目的配置和部署流程。 ... [详细]
  • 探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者,本文将为您提供实用建议和资源,帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]
  • Git管理工具SourceTree安装与使用指南
    本文详细介绍了Git管理工具SourceTree的安装、配置及团队协作方案,旨在帮助开发者更高效地进行版本控制和项目管理。 ... [详细]
  • 在创建新的Android项目时,您可能会遇到aapt错误,提示无法打开libstdc++.so.6共享对象文件。本文将探讨该问题的原因及解决方案。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 本文详细介绍了如何正确安装Java EE SDK,并解决在安装过程中可能遇到的问题,特别是关于servlet代码在Apache Tomcat 10中无法运行的情况。 ... [详细]
author-avatar
圈儿丫头1986
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有