首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

Luence5分钟快速入门示例

作者：rfzrfz_353 | 来源：互联网 | 2023-09-04 23:36

使用Lucene，可以非常方便给我们的应用增加上全文索引的功能，使用上也非常简单，只需要5分钟我们就可以学会如何使用它。1、先从官方下载

使用Lucene&＃xff0c;可以非常方便给我们的应用增加上全文索引的功能&＃xff0c;使用上也非常简单&＃xff0c;只需要5分钟我们就可以学会如何使用它。

1、先从官方下载&＃xff0c;现在的最新版本是4.4.0&＃xff0c;下面的示例代码也是基于4.4的&＃xff1b;

2、建立一个JAVA工程&＃xff0c;将这些个jar从Lucene的目录中找出来&＃xff1a;lucene-analyzers-common-4.4.0.jar、lucene-core-4.4.0.jar、lucene-queries-4.4.0.jar、lucene-queryparser-4.4.0.jar&＃xff0c;并加入到工程的classpath中&＃xff1b;

3、示例JAVA代码&＃xff0c;为了简单好理解&＃xff0c;示例是以将内存中加入一些字符串&＃xff0c;并通过查询结果&＃xff0c;再将结果显示出来。

1&＃xff09;、建立内容索引

[java] view plaincopyprint? 在CODE上查看代码片

在CODE上查看代码片

派生到我的代码片

//创建一个分析器&＃xff0c;这里使用的是标准分析器&＃xff0c;适用于大多数场景&＃xff0c;并且在StandardAnalyzer中包括了部分中文分析处理功能&＃xff0c;虽然其本身也有一个中文分析器ChineseAnalyzer&＃xff0c;
//不过ChineseAnalyzer将会在5.0的版本中被去掉&＃xff0c;使用StandardAnalyzer即可。
//另外在analyzers-common中&＃xff0c;包括了针对很多种不同语言的分析器&＃xff0c;其中包括中文分析器
Analyzer analyzer &＃61; new StandardAnalyzer(Version.LUCENE_44);
//Directory是用于索引文件的存储的抽象类&＃xff0c;其子类有将索引文件写到文件的&＃xff0c;也有直接放到内存中的&＃xff0c;这里的RAMDirectory就是放在内存中索引
//优点是速度快&＃xff0c;缺少是不适合于大量数据的索引。这里的数据比较少&＃xff0c;所以使用RAMDirctory非常适合。
//具体的可以查看Directory, RAMDirectory,FSDirectory等API说明&＃xff0c;这里要强调一下的是FSDirectory是一个文件索引存储的抽象类&＃xff0c;下面还有三个子类:MMapDirectory, NIOFSDirectory, SimpleFSDirectory&＃xff0c;根据不同的操作系统及使用场景进行不同的选择了。
Directory index &＃61; new RAMDirectory();
//IndexWriterConfig包括了所有创建IndexWriter的配置&＃xff0c;一旦IndexWriter创建完成后&＃xff0c;此时再去修改IndexWriterConfig是不会影响到IndexWriter实例的&＃xff0c;此时如果想获取正确的IndexWirter的配置&＃xff0c;最好是通过IndexWirter.getConfig()方法了&＃xff0c;另外IndexWriterConfig本身也是一个final类。
IndexWriterConfig config &＃61; new IndexWriterConfig(Version.LUCENE_44, analyzer);
//顾名思义,IndexWriter是用于维护及增加索引的
IndexWriter w &＃61; new IndexWriter(index, config);
addDoc(w, "Lucene in Action", "193398817");
addDoc(w, "Lucene for Dummies", "55320055Z");
addDoc(w, "Managing Gigabytes", "55063554A");
addDoc(w, "The Art of Computer Science", "9900333X");
w.close();

//创建一个分析器&＃xff0c;这里使用的是标准分析器&＃xff0c;适用于大多数场景&＃xff0c;并且在StandardAnalyzer中包括了部分中文分析处理功能&＃xff0c;虽然其本身也有一个中文分析器ChineseAnalyzer&＃xff0c; //不过ChineseAnalyzer将会在5.0的版本中被去掉&＃xff0c;使用StandardAnalyzer即可。 //另外在analyzers-common中&＃xff0c;包括了针对很多种不同语言的分析器&＃xff0c;其中包括中文分析器 Analyzer analyzer &＃61; new StandardAnalyzer(Version.LUCENE_44);//Directory是用于索引文件的存储的抽象类&＃xff0c;其子类有将索引文件写到文件的&＃xff0c;也有直接放到内存中的&＃xff0c;这里的RAMDirectory就是放在内存中索引 //优点是速度快&＃xff0c;缺少是不适合于大量数据的索引。这里的数据比较少&＃xff0c;所以使用RAMDirctory非常适合。 //具体的可以查看Directory, RAMDirectory,FSDirectory等API说明&＃xff0c;这里要强调一下的是FSDirectory是一个文件索引存储的抽象类&＃xff0c;下面还有三个子类:MMapDirectory, NIOFSDirectory, SimpleFSDirectory&＃xff0c;根据不同的操作系统及使用场景进行不同的选择了。 Directory index &＃61; new RAMDirectory();//IndexWriterConfig包括了所有创建IndexWriter的配置&＃xff0c;一旦IndexWriter创建完成后&＃xff0c;此时再去修改IndexWriterConfig是不会影响到IndexWriter实例的&＃xff0c;此时如果想获取正确的IndexWirter的配置&＃xff0c;最好是通过IndexWirter.getConfig()方法了&＃xff0c;另外IndexWriterConfig本身也是一个final类。 IndexWriterConfig config &＃61; new IndexWriterConfig(Version.LUCENE_44, analyzer);//顾名思义,IndexWriter是用于维护及增加索引的 IndexWriter w &＃61; new IndexWriter(index, config);addDoc(w, "Lucene in Action", "193398817"); addDoc(w, "Lucene for Dummies", "55320055Z"); addDoc(w, "Managing Gigabytes", "55063554A"); addDoc(w, "The Art of Computer Science", "9900333X"); w.close();以下是addDoc方法的代码&＃xff0c;功能是将内容加入到索引中

[java] view plaincopyprint? 在CODE上查看代码片

在CODE上查看代码片

派生到我的代码片

private static void addDoc(IndexWriter w, String title, String isbn) throws IOException {
Document doc &＃61; new Document();
doc.add(new TextField("title", title, Field.Store.YES));
doc.add(new StringField("isbn", isbn, Field.Store.YES));
w.addDocument(doc);
}

private static void addDoc(IndexWriter w, String title, String isbn) throws IOException {Document doc &＃61; new Document();doc.add(new TextField("title", title, Field.Store.YES));doc.add(new StringField("isbn", isbn, Field.Store.YES));w.addDocument(doc); }

这里我们需要注意一下&＃xff0c;增加标题索引使用的是TextField&＃xff0c;增加isbn索引使用的是StringField&＃xff0c;这两个都是IndexableField的子类&＃xff0c;TextField表示是会被拆分并且被索引的字段&＃xff0c;而StringField只会一个整体被索引&＃xff0c;而不会进行拆分索引。

2)、查询通过读取命令行参数&＃xff0c;并将其传给luence的QueryParset&＃xff0c;再通过Query执行查询

[java] view plaincopyprint? 在CODE上查看代码片

在CODE上查看代码片

派生到我的代码片

String querystr &＃61; args.length > 0 ? args[0] : "lucene";
//通过查询解析器QueryParser创建一个查询Query.
//QueryParser是JavaCC(http://javacc.java.net)编译的其中最重要的方法就是QueryParserBase.parse(String)&＃xff0c;
//特别需要注意的是QueryParser不是线程安全的
Query q &＃61; new QueryParser(Version.LUCENE_44, "title", analyzer).parse(querystr);

String querystr &＃61; args.length > 0 ? args[0] : "lucene"; //通过查询解析器QueryParser创建一个查询Query. //QueryParser是JavaCC(http://javacc.java.net)编译的其中最重要的方法就是QueryParserBase.parse(String)&＃xff0c; //特别需要注意的是QueryParser不是线程安全的 Query q &＃61; new QueryParser(Version.LUCENE_44, "title", analyzer).parse(querystr);

[java] view plaincopyprint? 在CODE上查看代码片

在CODE上查看代码片

派生到我的代码片

3&＃xff09;、执行查询根据index创建IndexSearcher&＃xff0c;然后TopScoreDocCollector就会返回查询的结果

[java] view plaincopyprint?

//这个表示每次最多显示的结果数
int hitsPerPage &＃61; 10;
//创建索引读取器
IndexReader reader &＃61; IndexReader.open(index);
//创建索引查询器
IndexSearcher searcher &＃61; new IndexSearcher(reader);
//以TopDocs的方式返回最多hitsPerPage的查询结果
TopScoreDocCollector collector &＃61; TopScoreDocCollector.create(hitsPerPage, true);
//执行查询
searcher.search(q, collector);
ScoreDoc[] hits &＃61; collector.topDocs().scoreDocs;

//这个表示每次最多显示的结果数
int hitsPerPage &＃61; 10;
//创建索引读取器
IndexReader reader &＃61; IndexReader.open(index);
//创建索引查询器
IndexSearcher searcher &＃61; new IndexSearcher(reader);
//以TopDocs的方式返回最多hitsPerPage的查询结果
TopScoreDocCollector collector &＃61; TopScoreDocCollector.create(hitsPerPage, true);
//执行查询
searcher.search(q, collector);
ScoreDoc[] hits &＃61; collector.topDocs().scoreDocs;

[java] view plaincopyprint? 在CODE上查看代码片

在CODE上查看代码片

派生到我的代码片

4&＃xff09;、显示索引查询结果

[java] view plaincopyprint?

System.out.println("Found " &＃43; hits.length &＃43; " hits.");
for(int i&＃61;0;i
int docId &＃61; hits[i].doc;
Document d &＃61; searcher.doc(docId);
System.out.println((i &＃43; 1) &＃43; ". " &＃43; d.get("isbn") &＃43; "\t" &＃43; d.get("title"));
}

System.out.println("Found " &＃43; hits.length &＃43; " hits.");
for(int i&＃61;0;i}

以下是完全整的代码&＃xff1a;

[java] view plaincopyprint? 在CODE上查看代码片

在CODE上查看代码片

派生到我的代码片

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopScoreDocCollector;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import java.io.IOException;
public class HelloLucene {
public static void main(String[] args) throws IOException, ParseException {
// 0. Specify the analyzer for tokenizing text.
// The same analyzer should be used for indexing and searching
StandardAnalyzer analyzer &＃61; new StandardAnalyzer(Version.LUCENE_44);
// 1. create the index
Directory index &＃61; new RAMDirectory();
IndexWriterConfig config &＃61; new IndexWriterConfig(Version.LUCENE_44, analyzer);
IndexWriter w &＃61; new IndexWriter(index, config);
addDoc(w, "Lucene in Action", "193398817");
addDoc(w, "Lucene for Dummies", "55320055Z");
addDoc(w, "Managing Gigabytes", "55063554A");
addDoc(w, "The Art of Computer Science", "9900333X");
w.close();
// 2. query
String querystr &＃61; args.length > 0 ? args[0] : "lucene";
// the "title" arg specifies the default field to use
// when no field is explicitly specified in the query.
Query q &＃61; new QueryParser(Version.LUCENE_44, "title", analyzer).parse(querystr);
// 3. search
int hitsPerPage &＃61; 10;
IndexReader reader &＃61; DirectoryReader.open(index);
IndexSearcher searcher &＃61; new IndexSearcher(reader);
TopScoreDocCollector collector &＃61; TopScoreDocCollector.create(hitsPerPage, true);
searcher.search(q, collector);
ScoreDoc[] hits &＃61; collector.topDocs().scoreDocs;
// 4. display results
System.out.println("Found " &＃43; hits.length &＃43; " hits.");
for(int i&＃61;0;i
int docId &＃61; hits[i].doc;
Document d &＃61; searcher.doc(docId);
System.out.println((i &＃43; 1) &＃43; ". " &＃43; d.get("isbn") &＃43; "\t" &＃43; d.get("title"));
}
// reader can only be closed when there
// is no need to access the documents any more.
reader.close();
}
private static void addDoc(IndexWriter w, String title, String isbn) throws IOException {
Document doc &＃61; new Document();
doc.add(new TextField("title", title, Field.Store.YES));
// use a string field for isbn because we don&＃39;t want it tokenized
doc.add(new StringField("isbn", isbn, Field.Store.YES));
w.addDocument(doc);
}
}

推荐阅读

string
深入解析Android Activity生命周期

本文详细探讨了Android中Activity的生命周期，通过实例代码和详细的步骤说明，帮助开发者更好地理解和掌握Activity各个阶段的行为。 ... [详细]

蜡笔小新 2024-11-27 03:28:32
format
初学者指南：使用CSS为博客园文章中的超链接添加图标

作为一名CSS初学者，我在博客园中尝试通过CSS美化页面，特别是为超链接添加图标，以提升阅读体验。本文将分享如何使用CSS和字体图标库来实现这一功能。 ... [详细]

蜡笔小新 2024-11-27 08:43:46
string
字符、字符串和文本的处理之Char类型

.NetFramework中处理字符和字符串的主要有以下这么几个类:(1)、System.Char类一基础字符串处理类(2)、System.String类一处理不可变的字符串(一经 ... [详细]

蜡笔小新 2024-11-26 21:04:40
default
C++ 入门教程||C++ 基本语法||C++ 注释

C基本语法C程序可以定义为对象的集合，这些对象通过调用彼此的方法进行交互。现在让我们简要地看一下什么是类、对象，方法、即时变量。对象-对象具有状态和行为 ... [详细]

蜡笔小新 2024-11-26 18:03:14
string
【转】blocks实践指南

转自：http:blog.sina.com.cnsblog_67419c420100vmkt.html 1.为什么要使用blocks将一个blocks作为函数或者方法的参数传递，可 ... [详细]

蜡笔小新 2024-11-26 17:08:39
string
深入探讨Golang中的String数据结构与特性

本文详细介绍了Golang中string类型的内部结构及其特性，包括字符串的定义、表示方式、数据结构以及相关的操作方法，如字符串拼接和类型转换等。 ... [详细]

蜡笔小新 2024-11-25 13:46:23
string
设计模式系列-原型模式

一、上篇回顾上篇创建者模式中，我们主要讲述了创建者的几类实现方案，和创建者模式的应用的场景和特点，创建者模式适合创建复杂的对象，并且这些对象的每个组成部分的详细创建步骤可以是动态的变化的，但 ... [详细]

蜡笔小新 2024-11-27 14:54:32
format
深入解析 Zend Guard 4 功能与配置

本文旨在通过图文并茂的方式详细介绍 Zend Guard 4 的核心功能及其配置方法，特别适合英文阅读能力有限的技术人员。文中不仅提供了详细的步骤说明，还附带了实际操作中的注意事项，帮助读者更好地理解和应用这一工具。 ... [详细]

蜡笔小新 2024-11-27 14:15:29
string
Activity跳转动画无缝衔接

Activity跳转动画无缝衔接 ... [详细]

蜡笔小新 2024-11-27 11:40:35
string
MVC框架下使用DataGrid实现时间筛选与枚举填充

本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能，具体包括使用jQuery UI的DatePicker插件添加时间筛选条件，并通过枚举数据填充下拉列表。 ... [详细]

蜡笔小新 2024-11-27 11:02:33
usb
万事起于配置开发环境

万事起于配置开发环境 ... [详细]

蜡笔小新 2024-11-27 10:20:39
config
Cadence SPB 16.5 安装指南与注意事项

本文提供了详细的 Cadence SPB 16.5 安装步骤，包括环境配置、安装过程中的关键步骤以及常见问题的解决方案。适合初次安装或遇到问题的技术人员参考。 ... [详细]

蜡笔小新 2024-11-27 09:43:24
config
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
config
深入理解Web API中的特性路由

本文探讨了Web API 2中特性的路由机制，特别是如何利用它来构建RESTful风格的URI。文章不仅介绍了基本的特性路由使用方法，还详细说明了如何通过特性路由进行API版本控制、HTTP方法的指定、路由前缀的应用以及路由约束的设置。 ... [详细]

蜡笔小新 2024-11-26 20:52:15
config
实用浏览器插件与高效工具推荐

本文旨在介绍一系列提升工作效率的浏览器插件和实用小工具，帮助用户在日常工作中更加便捷高效。内容由原作者授权发布。 ... [详细]

蜡笔小新 2024-11-26 10:10:09

rfzrfz_353

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有