当前位置: 开发笔记 > 编程语言 > 正文

java创建索引_lucene创建索引的几种方式(一)

作者：化工12卓越团支部CUP | 来源：互联网 | 2023-05-19 16:41

什么是索引：根据你输入的值去找，这个值就是索引第一种创建索引的方式：根据文件来生成索引，如后缀为.txt等的文件步骤

什么是索引&＃xff1a;

根据你输入的值去找&＃xff0c;这个值就是索引

第一种创建索引的方式&＃xff1a;

根据文件来生成索引&＃xff0c;如后缀为.txt等的文件

步骤&＃xff1a;

第一步&＃xff1a;FSDirectory.open(Paths.get(url));根据路径获取存储索引的目录。

FSDirectory&＃xff1a;表示对文件系统目录的操作。RAMDirectory &＃xff1a;内存中的目录操作。

Paths为NIO(new io)的一个类&＃xff1b;Path 类是 java.io.File 类的升级版&＃xff0c;File file&＃61;newFile("index.html")而Path path&＃61;Paths.get("index.html");由于 Path 类基于字符串创建&＃xff0c;因此它引用的资源也有可能不存在。

关于nio:传统的io流都是通过字节的移动来处理的&＃xff0c;也就是说输入/输出流一次只能处理一个字节&＃xff0c;因此面向流的输入/输出系统通常效率不高&＃xff1b;因此引进了新IO(new IO),NIO采用内存映射文件的方式来处理输入/输出&＃xff0c;NIO将文件或文件的一段区域映射到内存中&＃xff0c;这样就可以向访问内存一样来访问文件了(这种方式模拟了操作系统上的虚拟内存的概念)&＃xff0c;所以NIO的效率很快。

第二步&＃xff1a;new IndexWriter(Directory,IndexWriterConfig)创建索引

第三步&＃xff1a;索引指定目录的文件

第四步&＃xff1a;将文件写入lucene中的文档(Document)

packagecom.wp.util;importjava.io.File;importjava.io.FileReader;importjava.nio.file.Paths;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importorg.apache.lucene.document.Field;importorg.apache.lucene.document.TextField;importorg.apache.lucene.index.IndexWriter;importorg.apache.lucene.index.IndexWriterConfig;importorg.apache.lucene.store.Directory;importorg.apache.lucene.store.FSDirectory;public classIndexer {private IndexWriter writer; //写索引实例

/*** 构造方法实例化IndexWriter

*&＃64;paramindexDir

*&＃64;throwsException*/

public Indexer(String indexDir) throwsException {

Directory dir&＃61; FSDirectory.open(Paths.get(indexDir));//根据路径获取存储索引的目录

Analyzer analyzer &＃61; new StandardAnalyzer(); //这里用了多态&＃xff0c;StandardAnalyzer是标准分词器&＃xff0c;Analyzer是一个分词器

IndexWriterConfig iwc &＃61; newIndexWriterConfig(analyzer); writer&＃61; newIndexWriter(dir, iwc); }/*** 关闭写索引 * *&＃64;throwsException*/ public void close() throwsException { writer.close(); }/*** 索引指定目录的所有文件 * *&＃64;paramdataDir *&＃64;throwsException*/ public int index(String dataDir) throwsException { File[] files&＃61; newFile(dataDir).listFiles();for(File f : files) { indexFile(f); }returnwriter.numDocs(); }/*** 索引指定文件 * *&＃64;paramf*/ private void indexFile(File f) throwsException {//关于f.getCanonicalPath()查看http://www.blogjava.net/dreamstone/archive/2007/08/08/134968.html System.out.println("索引文件&＃xff1a;" &＃43;f.getCanonicalPath()); Document doc&＃61;getDocument(f); writer.addDocument(doc); }/*** 获取文档&＃xff0c;文档里再设置每个字段 * *&＃64;paramf*/ private Document getDocument(File f) throwsException { Document doc&＃61; newDocument(); doc.add(new TextField("contents", newFileReader(f))); doc.add(new TextField("fileName", f.getName(), Field.Store.YES)); doc .add(new TextField("fullPath", f.getCanonicalPath(), Field.Store.YES));returndoc; }public static voidmain(String[] args) { String indexDir&＃61; "D:\\lucene4"; String dataDir&＃61; "D:\\lucene4\\data"; Indexer indexer&＃61; null;int numIndexed &＃61; 0;long start &＃61;System.currentTimeMillis();try{ indexer&＃61; newIndexer(indexDir); numIndexed&＃61;indexer.index(dataDir); }catch(Exception e) { e.printStackTrace(); }finally{try{ indexer.close(); }catch(Exception e) { e.printStackTrace(); } }long end &＃61;System.currentTimeMillis(); System.out.println("索引&＃xff1a;" &＃43; numIndexed &＃43; " 个文件花费了" &＃43; (end -start)&＃43; " 毫秒"); } }

第二种创建索引的方式&＃xff1a;

根据字段来生成索引&＃xff0c;我用的是数组

第一步&＃xff1a;创建索引

第二步&＃xff1a;将字段添加到文档中

packagecom.wp.util;importjava.nio.file.Paths;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importorg.apache.lucene.document.Field;importorg.apache.lucene.document.StringField;importorg.apache.lucene.document.TextField;importorg.apache.lucene.index.DirectoryReader;importorg.apache.lucene.index.IndexReader;importorg.apache.lucene.index.IndexWriter;importorg.apache.lucene.index.IndexWriterConfig;importorg.apache.lucene.index.Term;importorg.apache.lucene.store.Directory;importorg.apache.lucene.store.FSDirectory;importorg.junit.Before;importorg.junit.Test;public classIndexIngTest {private String ids[] &＃61; { "1", "2", "3"};private String citys[] &＃61; { "qingdao", "nanjing", "shanghai"};private String descs[] &＃61; { "Qingdao is a beautiful city.","Nanjing is a city of culture.", "Shanghai is a bustling city."};private Directory dir;//目录

/*** 获取IndexWriter实例

*&＃64;return*&＃64;throwsException*/

private IndexWriter getWriter() throwsException {

Analyzer analyzer&＃61; new StandardAnalyzer(); //标准分词器

IndexWriterConfig iwc &＃61; newIndexWriterConfig(analyzer);

IndexWriter writer&＃61; newIndexWriter(dir, iwc);returnwriter;

}/*** 添加文档

*&＃64;throwsException*/&＃64;Beforepublic void setUp() throwsException {

dir&＃61; FSDirectory.open(Paths.get("D:\\lucene\\luceneIndex"));//得到luceneIndex目录

IndexWriter writer &＃61; getWriter();//得到索引

for (int i &＃61; 0; i

Document doc&＃61; new Document();//创建文档

doc.add(new StringField("id", ids[i], Field.Store.YES));//将id属性存入内存中

doc.add(new StringField("city", citys[i], Field.Store.YES));

doc.add(new TextField("desc", descs[i], Field.Store.NO));

writer.addDocument(doc);//添加文档

}

writer.close();

}/*** 测试写了几个文档

*&＃64;throwsException*/&＃64;Testpublic void testIndexWriter() throwsException {

IndexWriter writer&＃61;getWriter();

System.out.println("写入了" &＃43; writer.numDocs() &＃43; "个文档");

writer.close();

}/*** 测试读取文档

*&＃64;throwsException*/&＃64;Testpublic void testIndexReader() throwsException {

IndexReader reader&＃61;DirectoryReader.open(dir);

System.out.println("最大文档数&＃xff1a;" &＃43;reader.maxDoc());

System.out.println("实际文档数&＃xff1a;" &＃43;reader.numDocs());

reader.close();

}/*** 测试删除在合并前

*&＃64;throwsException*/&＃64;Testpublic void testDeleteBeforeMerge() throwsException {

IndexWriter writer&＃61;getWriter();

System.out.println("删除前&＃xff1a;" &＃43;writer.numDocs());

writer.deleteDocuments(new Term("id", "1"));//term&＃xff1a;根据id找到为1的

writer.commit();

System.out.println("writer.maxDoc()&＃xff1a;" &＃43;writer.maxDoc());

System.out.println("writer.numDocs()&＃xff1a;" &＃43;writer.numDocs());

writer.close();

}/*** 测试删除在合并后

*&＃64;throwsException*/&＃64;Testpublic void testDeleteAfterMerge() throwsException {

IndexWriter writer&＃61;getWriter();

System.out.println("删除前&＃xff1a;" &＃43;writer.numDocs());

writer.deleteDocuments(new Term("id", "1"));

writer.forceMergeDeletes();//强制删除

writer.commit();

System.out.println("writer.maxDoc()&＃xff1a;" &＃43;writer.maxDoc());

System.out.println("writer.numDocs()&＃xff1a;" &＃43;writer.numDocs());

writer.close();

}/*** 测试更新

*&＃64;throwsException*/&＃64;Testpublic void testUpdate() throwsException {

IndexWriter writer&＃61;getWriter();

Document doc&＃61; newDocument();

doc.add(new StringField("id", "1", Field.Store.YES));

doc.add(new StringField("city", "qingdao", Field.Store.YES));

doc.add(new TextField("desc", "dsss is a city.", Field.Store.NO));

writer.updateDocument(new Term("id", "1"), doc);

writer.close();

}

生成的索引文件如下&＃xff1a;

关于索引的搜索&＃xff1a;

这里有一个要注意的地方&＃xff1a;一定要先创建出索引后才能去进行查找&＃xff0c;否则会报

org.apache.lucene.index.IndexNotFoundException:

no segments* file found in MMapDirectory&＃64;D:\lucene lockFactory&＃61;org.apache.lucene.store.NativeFSLockFactory&＃64;753f67a9: files: [data, lucene-5.3.1, lucene-5.3.1.zip]

packagecom.wp.lucene;importjava.nio.file.Paths;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importorg.apache.lucene.index.DirectoryReader;importorg.apache.lucene.index.IndexReader;importorg.apache.lucene.queryparser.classic.QueryParser;importorg.apache.lucene.search.IndexSearcher;importorg.apache.lucene.search.Query;importorg.apache.lucene.search.ScoreDoc;importorg.apache.lucene.search.TopDocs;importorg.apache.lucene.store.Directory;importorg.apache.lucene.store.FSDirectory;public classSearcher {/***

*&＃64;paramindexDir

* 哪个目录

*&＃64;paramq

* 要查询的字段

*&＃64;throwsException*/

public static void search(String indexDir, String q) throwsException {

Directory dir&＃61; FSDirectory.open(Paths.get(indexDir));//打开目录

IndexReader reader &＃61; DirectoryReader.open(dir);//进行读取

IndexSearcher is &＃61; new IndexSearcher(reader);//索引查询器

Analyzer analyzer &＃61; new StandardAnalyzer(); //标准分词器

QueryParser parser &＃61; new QueryParser("contents", analyzer);//在哪查询&＃xff0c;第一个参数为查询的Document&＃xff0c;在Indexer中创建了

Query query &＃61; parser.parse(q);//对字段进行解析后返回给查询

long start &＃61;System.currentTimeMillis();

TopDocs hits&＃61; is.search(query, 10);//开始查询&＃xff0c;10代表前10条数据&＃xff1b;返回一个文档

long end &＃61;System.currentTimeMillis();

System.out.println("匹配 " &＃43; q &＃43; " &＃xff0c;总共花费" &＃43; (end - start) &＃43; "毫秒" &＃43; "查询到"

&＃43; hits.totalHits &＃43; "个记录");for(ScoreDoc scoreDoc : hits.scoreDocs) {

Document doc&＃61; is.doc(scoreDoc.doc);//根据文档的标识获取文档

System.out.println(doc.get("fullPath"));

}

reader.close();

}/*** 执行这个main方法进行查询之前&＃xff0c;必须要有索引&＃xff0c;即先执行Indexer这个类

*&＃64;paramargs*/

public static voidmain(String[] args) {

String indexDir&＃61; "D:\\lucene";

String q&＃61; "ADD";try{

search(indexDir, q);

}catch(Exception e) {

e.printStackTrace();

}

Java小生店铺&＃xff1a;

手机端&＃xff1a;搜索 java小生店铺

希望店铺的资料能帮助到你&＃xff01;&＃xff01;&＃xff01;

推荐阅读

string
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
runtime
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
string
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
string
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
string
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
string
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
string
Spring Boot 入门指南：Hello World 示例

本教程详细介绍了如何使用 Spring Boot 创建一个简单的 Hello World 应用程序。适合初学者快速上手。 ... [详细]

蜡笔小新 2024-11-12 15:18:38
string
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
string
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
string
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
runtime
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
string
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
string
Java 中如何将多参数方法传递给使用 List 的 Function

本文探讨了如何在 Java 中将多参数方法通过 Lambda 表达式传递给一个接受 List 的 Function。具体分析了 `OrderUtil` 类中的 `runInBatches` 方法及其使用场景。 ... [详细]

蜡笔小新 2024-11-12 22:25:23
string
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
replace
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57

化工12卓越团支部CUP

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章