Lucene（全文检索）索引库维护

作者：Rocky柱子 | 来源：互联网 | 2023-05-18 23:18

Lucene索引库的维护Lucene工具类封装packagecom.xushuai.lucene;importorg.apache.lucene.analysis.Analyze

Lucene索引库的维护

Lucene工具类封装

package com.xushuai.lucene;import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version;import java.io.File; import java.io.IOException;/*** Lucene工具类* Author: xushuai* Date: 2018/5/7* Time: 12:36* Description:*/ public class LuceneUtil {/*** 获取索引库写入流对象* &＃64;auther: xushuai* &＃64;date: 2018/5/7 12:37* &＃64;return: 写入流对象* &＃64;throws: IOException*/public static IndexWriter getIndexWriter(String pathname, Analyzer analyzer) throws IOException {//存放索引库的路径Directory directory &＃61; FSDirectory.open(new File(pathname));//创建分析器(使用其子类&＃xff0c;标准分析器类)IndexWriterConfig indexWriterConfig &＃61; new IndexWriterConfig(Version.LATEST, analyzer);//使用索引库路径和分析器构造索引库写入流return new IndexWriter(directory,indexWriterConfig);}/*** 获取索引库读取流* &＃64;auther: xushuai* &＃64;date: 2018/5/7 12:45* &＃64;return: 读取流对象* &＃64;throws: IOException*/public static IndexReader getIndexReader(String pathname) throws IOException {//指定索引库位置Directory directory &＃61; FSDirectory.open(new File(pathname));//创建索引库读取流return DirectoryReader.open(directory);}/*** 打印结果集到控制台* &＃64;auther: xushuai* &＃64;date: 2018/5/7 13:23* &＃64;throws: IOException*/public static void printResult(IndexSearcher indexSearcher, Query query, int count) throws IOException {//执行查询,第一个参数为&＃xff1a;查询条件第二个参数为&＃xff1a;结果返回最大个数TopDocs topDocs &＃61; indexSearcher.search(query, count);//打印结果集长度System.out.println("查询结果总条数&＃xff1a;" &＃43; topDocs.totalHits);//遍历结果集for (ScoreDoc doc:topDocs.scoreDocs) {//获取其查询到的文档对象,ScoreDoc对象的doc属性可以获取document的id值Document document &＃61; indexSearcher.doc(doc.doc);//打印文件名System.out.println("文件名&＃xff1a; " &＃43; document.get("filename"));//打印文件大小System.out.println("文件大小&＃xff1a;" &＃43; document.get("filesize"));//打印文件路径System.out.println("文件路径&＃xff1a;" &＃43; document.get("filepath"));//分割线System.out.println("------------------------------------------------------------------------------");}} }

一、索引库的修改和删除

package com.xushuai.lucene;import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.TextField; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.Term; import org.apache.lucene.search.Query; import org.apache.lucene.search.TermQuery; import org.junit.After; import org.junit.Before; import org.junit.Test; import org.wltea.analyzer.lucene.IKAnalyzer;import java.io.IOException;/*** 索引库维护* Author: xushuai* Date: 2018/5/7* Time: 12:47* Description:对索引库的维护主要分为&＃xff1a;增删改查(CRUD)&＃xff0c;其中新增即为创建索引库&＃xff0c;查询内容较多&＃xff0c;单独为一个分支。*/ public class LuceneManager {private IndexWriter indexWriter &＃61; null;/*** 加载写入流* &＃64;auther: xushuai* &＃64;date: 2018/5/7 17:21* &＃64;throws: IOException*/&＃64;Beforepublic void setUp() throws IOException {//注意&＃xff1a;IKAnalyzer为第三方分析器&＃xff0c;需要单独导包indexWriter &＃61; LuceneUtil.getIndexWriter("D:\\lucene-solr\\lucene\\index", new IKAnalyzer());}/*** 释放资源* &＃64;auther: xushuai* &＃64;date: 2018/5/7 17:21* &＃64;throws: IOException*/&＃64;Afterpublic void tearDown() throws IOException {indexWriter.close();}/*** Lucene索引修改过程&＃xff1a;先删除&＃xff0c;再添加* &＃64;auther: xushuai* &＃64;date: 2018/5/7 12:56* &＃64;throws: IOException*/&＃64;Testpublic void luceneUpdateRepository() throws IOException {//创建Document对象Document document &＃61; new Document();//添加域document.add(new TextField("fname","修改后的文件名", Field.Store.YES));document.add(new TextField("fcontent","修改后的文件内容",Field.Store.YES));//修改,其中第一个参数&＃xff1a;为一个Term&＃xff0c;会根据该Term去匹配要修改的文档对象indexWriter.updateDocument(new Term("filename","java"),document);}/*** 删除索引* &＃64;auther: xushuai* &＃64;date: 2018/5/7 13:00* &＃64;throws: IOException*/&＃64;Testpublic void luceneDeleteRepository() throws IOException{//第一种删除&＃xff1a;删除索引库全部内容indexWriter.deleteAll();//第二种删除&＃xff1a;删除指定索引。过程&＃xff1a;先查询&＃xff0c;后删除//新建一个查询条件,例如&＃xff1a;删除 "filename" 域的值中含有 "java" 的Query query &＃61; new TermQuery(new Term("filename","java"));//根据条件进行删除(参数为&＃xff1a;Query可变数组&＃xff0c;可以为多个条件&＃xff0c;即组合条件删除)indexWriter.deleteDocuments(query);}}

二、查询索引&＃xff08;Query子类&＃xff09;

package com.xushuai.lucene;import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.Term; import org.apache.lucene.search.*; import org.junit.After; import org.junit.Before; import org.junit.Test;import java.io.IOException;/*** Lucene索引查询* Author: xushuai* Date: 2018/5/7* Time: 13:19* Description:*/ public class LuceneQuery {private IndexSearcher indexSearcher &＃61; null;/*** 准备工作* &＃64;auther: xushuai* &＃64;date: 2018/5/7 17:27* &＃64;throws: IOException*/&＃64;Beforepublic void setUp() throws IOException {IndexReader indexReader &＃61; LuceneUtil.getIndexReader("D:\\lucene-solr\\lucene\\index");indexSearcher &＃61; new IndexSearcher(indexReader);}/*** 释放资源* &＃64;auther: xushuai* &＃64;date: 2018/5/7 17:27* &＃64;throws: IOException*/&＃64;Afterpublic void tearDown() throws IOException {indexSearcher.getIndexReader().close();}/*** 查询索引目录中的所有文档* &＃64;auther: xushuai* &＃64;date: 2018/5/7 13:22* &＃64;return: * &＃64;throws: */&＃64;Testpublic void luceneMatchAllDocsQuery() throws IOException {//创建查询条件对象&＃xff0c;MatchAllDocsQuery&＃xff1a;查询全部文档对象Query query &＃61; new MatchAllDocsQuery();//打印查询结果集(最后一个参数为&＃xff1a;打印查询出来的结果集中的前10条)LuceneUtil.printResult(indexSearcher,query,10);}/*** 精准查询* &＃64;auther: xushuai* &＃64;date: 2018/5/7 13:32* &＃64;return:* &＃64;throws:*/&＃64;Testpublic void luceneTermQuery() throws IOException {//创建查询条件对象&＃xff0c;TermQuery:精准查询&＃xff0c;按Term查询。例如&＃xff1a; 查询 filename 域的值为 java的文档对象Query query &＃61; new TermQuery(new Term("filename","java"));//打印查询结果集(最后一个参数为&＃xff1a;打印查询出来的结果集中的前10条)LuceneUtil.printResult(indexSearcher,query,10);}/*** * &＃64;auther: xushuai* &＃64;date: 2018/5/7 13:34* &＃64;return: * &＃64;throws: */&＃64;Testpublic void luceneNumericRangeQuery() throws IOException {//创建查询条件对象/** newLongRange参数&＃xff1a;* 1、域名称* 2、最小值* 3、最大值* 4、是否包含最小值&＃xff1a;boolean* 5、是否包含最大值&＃xff1a;boolean*/Query query &＃61; NumericRangeQuery.newLongRange("filesize",50L,200L,true,true);//打印查询结果集(最后一个参数为&＃xff1a;打印查询出来的结果集中的前10条)LuceneUtil.printResult(indexSearcher,query,10);}/*** 条件组合查询* &＃64;auther: xushuai* &＃64;date: 2018/5/7 13:38* &＃64;throws: IOException*/&＃64;Testpublic void luceneBooleanQuery() throws IOException{//创建查询对象BooleanQuery booleanQuery &＃61; new BooleanQuery();//创建查询条件Query query1 &＃61; new TermQuery(new Term("filename","java"));Query query2 &＃61; new TermQuery(new Term("filename","apache"));//设置其两个条件的关系/** BooleanClause.Occur.MUST&＃xff1a;必须&＃xff0c;即该条件必须成立* BooleanClause.Occur.MUST_NOT&＃xff1a;必须不&＃xff0c;即该条件必须不成立* BooleanClause.Occur.SHOULD&＃xff1a;应该&＃xff0c;即该条件可以成立也可以不成立&＃xff0c;与OR类似\** 下面这个组合条件翻译为&＃xff1a;搜索文件名称中含有java或apache的文档对象*/booleanQuery.add(query1, BooleanClause.Occur.SHOULD);booleanQuery.add(query2, BooleanClause.Occur.SHOULD);//打印查询结果集(最后一个参数为&＃xff1a;打印查询出来的结果集中的前10条)LuceneUtil.printResult(indexSearcher,booleanQuery,10);}}

推荐阅读

list
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
version
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
byte
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
byte
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
web
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
list
JavaAwtSwing笔记之 JComponent JLabel 的 setBorder(Border 边框) 用例

JComponentJLabel的setBorder前言用例2205262241前言setBorder(Border边框)实现自JComponentjava.awt.Insets ... [详细]

蜡笔小新 2024-11-12 13:48:19
list
Java 中的等时日期(int，int)方法，示例

Java 中的等时日期(int，int)方法，示例 ... [详细]

蜡笔小新 2024-11-15 07:28:40
request
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
go
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
go
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
version
使用Java和PDFBox实现PDF局部切割

本文介绍了如何使用Java和PDFBox库根据坐标值对PDF文件进行局部切割的方法。 ... [详细]

蜡笔小新 2024-11-13 13:04:52
list
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
request
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
list
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
process
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11

Rocky柱子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章