apachelucene的核心类

作者：路路 | 来源：互联网 | 2023-08-31 17:46

下边介绍一下lucene的核心类：(参考luceneinaction)主要有两部分组成，核心索引类和核心搜索类，顾名思意，就是用来建立索引和用来搜索的类。IndexWriter：可

下边介绍一下lucene的核心类：(参考lucene in action)
主要有两部分组成，核心索引类和核心搜索类，顾名思意，就是用来建立索引和用来搜索的类。

IndexWriter：可以对索引进行写操作，但不能读取或者搜索。是唯一能写索引的类。

Directory：Directory 类代表一个Lucene索引的位置。它是一个抽象类，允许它的子类(其中的两个包含在Lucene中)在合适时存储索引。在我们的Indexer示例中，我们使用一个实际文件系统目录的路径传递给IndexWriter的构造函数来获得Directory的一个实例。IndexWriter然后使用 Directory的一个具体实现FSDirectory，并在文件系统的一个目录中创建索引。在你的应用程序中，你可能较喜欢将Lucene索引存储在磁盘上。这时可以使用FSDirectory，一个包含文件系统真实文件列表的Driectory子类，如同我们在Indexer中一样。另一个 Directory的具体子类是RAMDirectory。尽管它提供了与FSDirectory相同的接口，RAMDirectory将它的所有数据加载到内存中。所以这个实现对较小索引很有用处，可以全部加载到内存中并在程序关闭时销毁。因为所有数据加载到快速存取的内存中而不是在慢速的硬盘上，RAMDirectory适合于你需要快速访问索引的情况，不管是索引或搜索。做为实例，Lucene的开发者在所有他们的单元测试中做了扩展使用：当测试运行时，快速的内存驻留索引被创建搜索，当测试结束时，索引自动销毁，不会在磁盘上留下任何残余。当然，在将文件缓存到内存的操作系统中使用时 RAMDirectory和FSDirectory之间的性能差别较小

Analyzer:分析文本内容，提取关键字

Document:一个Document代表字段的集合。你可以把它想象为以后可获取的虚拟文档—一块数据，如一个网页、一个邮件消息或一个文本文件。一个文档的字段代表这个文档或与这个文档相关的元数据

Field:在索引中的每个Document含有一个或多个字段，具体化为Field类。每个字段相应于数据的一个片段，将在搜索时查询或从索引中重新获取。
Lucene提供四个不同的字段类型，你可以从中做出选择：

Keyword—不被分析，但是被索引并逐字存储到索引中。这个类型适合于原始值需要保持原样的字段，如URL、文件系统路径、日期、个人名称、社会安全号码、电话号码等等。例如，我们在Indexer(列表1.1)中把文件系统路径作为Keyword字段。

UnIndexed —不被分析也不被索引，但是它的值存储到索引中。这个类型适合于你需要和搜索结果一起显示的字段(如URL或数据库主键)，但是你从不直接搜索它的值。因为这种类型字段的原始值存储在索引中，这种类型不适合于存放比较巨大的值，如果索引大小是个问题的话。

UnStored—和UnIndexed相反。这个字段类型被分析并索引但是不存储在索引中。它适合于索引大量的文本而不需要以原始形式重新获得它。例如网页的主体或任休其它类型的文本文档。

Text —被分析并索引。这就意味着这种类型的字段可以被搜索，但是要小心字段大小。如果要索引的数据是一个String，它也被存储；但如果数据(如我们的 Indexer例子)是来自一个Reader，它就不会被存储。这通常是混乱的来源，所以在使用Field.Text时要注意这个区别。
所有字段由名称和值组成。你要使用哪种字段类型取决于你要如何使用这个字段和它的值。严格来说，Lucene只有一个字段类型：以各自特征来区分的字段。有些是被分析的，有些不是；有些是被索引，然面有些被逐字地存储等等。
注意注意Field.Text(String, String)和Field.Text(String, Reader)之间的区别。String变量存储字段数据，而Reader变量不存储。为索引一个String而又不想存储它，可以用 Field.UnStored(String, String)

下边是核心搜索类：
IndexSearcher：IndexSearcher 用来搜索而IndexWriter用来索引：暴露几个搜索方法的索引的主要链接。你可以把IndexSearcher想象为以只读方式打开索引的一个类。它提供几个搜索方法，其中一些在抽象基类Searcher中实现；最简单的接受单个Query对象做为参数并返回一个Hits对象。这个方法的典型应用类似这样：

IndexSearcher is = new IndexSearcher(
apache lucene 的核心类

FSDirectory.getDirectory(“/tmp/index”, false));
apache lucene 的核心类

Query q = new TermQuery(new Term(“contents”, “lucene”));
apache lucene 的核心类

Hits hits = is.search(q);

Term:
Term是搜索的基本单元。与Field对象类似，它由一对字符串元素组成：字段的名称和字段的值。注意Term对象也和索引过程有关。但是它们是由Lucene内部生成，所以在索引时你
一般不必考虑它们。在搜索时，你可能创建Term对象并TermQuery同时使用。
Query q = new TermQuery(new Term(“contents”, “lucene”));
Hits hits = is.search(q);
这段代码使Lucene找出在contents字段中含有单词lucene的所有文档。因为TermQuery对象继承自它的抽象父类Query，你可以在等式的左边用Query类型。

Query
Lucene 中包含一些Query的具体子类。到目前为止，在本章中我们仅提到过最基本的Lucene Query：TermQuery。其它Query类型有BooleanQuery，PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery和SpanQuery

TermQuery
TermQuery是Lucene支持的最基本的查询类型，并且它也是最原始的查询类型之一。它用来匹配含有指定值的字段的文档.

Hits类是一个搜索结果(匹配给定查询的文档)文档队列指针的简单容器。基于性能考虑，Hits的实例并不从索引中加载所有匹配查询的所有文档，而是每次一小部分

推荐阅读

安全
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
cmd
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
tree
深入解析Android中的SQLite数据库

SQLite是一种轻量级的关系型数据库管理系统，尽管体积小巧，却能支持高达2TB的数据库容量，每个数据库以单个文件形式存储。本文将详细介绍SQLite在Android开发中的应用，包括其数据存储机制、事务处理方式及数据类型的动态特性。 ... [详细]

蜡笔小新 2024-11-26 21:57:20
go
字符、字符串和文本的处理之Char类型

.NetFramework中处理字符和字符串的主要有以下这么几个类:(1)、System.Char类一基础字符串处理类(2)、System.String类一处理不可变的字符串(一经 ... [详细]

蜡笔小新 2024-11-26 21:04:40
import
JSP基础入门指南

本文介绍了JSP的基本概念、常用标签及其功能，并通过示例详细说明了如何在JSP页面中使用Java代码。 ... [详细]

蜡笔小新 2024-11-26 18:52:31
require
基于Flutter实现风车加载组件的制作_Android

Flutter官方提供了诸如 CircularProgressIndicator和 LinearProgressIndicator两种常见的加载指示组件，但是说实话，实在太普通，所 ... [详细]

蜡笔小新 2024-11-26 17:46:50
go
【转】blocks实践指南

转自：http:blog.sina.com.cnsblog_67419c420100vmkt.html 1.为什么要使用blocks将一个blocks作为函数或者方法的参数传递，可 ... [详细]

蜡笔小新 2024-11-26 17:08:39
go
[编程题] LeetCode上的Dynamic Programming(动态规划)类型的题目

继上次把backTracking的题目做了一下之后：backTracking，我把LeetCode的动态规划的题目又做了一下，还有几道比较难的Medium的题和Hard的题没做出来，后面会继续 ... [详细]

蜡笔小新 2024-11-26 14:31:10
go
基于OpenCV的小型图像检索系统开发指南

本文详细介绍了如何利用OpenCV构建一个高效的小型图像检索系统，涵盖从图像特征提取、视觉词汇表构建到图像数据库创建及在线检索的全过程。 ... [详细]

蜡笔小新 2024-11-26 12:58:31
import
深入解析Spring AOP注解及其应用

本文详细介绍了Spring AOP注解的基本概念及其实现方式，并通过实例演示了如何在项目中使用这些注解进行面向切面的编程。旨在帮助开发者更好地理解和运用Spring AOP功能。 ... [详细]

蜡笔小新 2024-11-26 11:56:03
import
深入解析：Linux下的GCC编译器

GCC（GNU Compiler Collection）是GNU项目下的一款功能全面且高效的多平台编译工具，广泛应用于Linux操作系统中。本文将详细介绍GCC的特点及其基本使用方法。 ... [详细]

蜡笔小新 2024-11-26 11:20:38
import
解决Spring应用启动时遇到的容器初始化错误

本文探讨了一个在Spring项目中常见的问题——当pom.xml文件中引入了servlet依赖但未指定其作用域为provided时导致的应用启动失败。文章详细分析了错误原因，并提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-11-26 10:16:53
import
Java中利用POI库读取Doc和Docx文件的方法

近期在研究Java IO流技术时，遇到了一个关于如何正确读取Doc文档而不出现乱码的问题。本文将详细介绍使用Apache POI库处理Doc和Docx文件的具体方法，包括必要的库引入和示例代码。 ... [详细]

蜡笔小新 2024-11-25 19:51:38
数组
深入解析mt_allocator内存分配器（二）：多线程与单线程场景下的实现

本文详细介绍了mt_allocator内存分配器在多线程和单线程环境下的实现机制。该分配器以2的幂次方字节为单位分配内存，支持灵活的配置和高效的性能。文章分为内存池特性描述、内存池实现、单线程内存池实现、内存池策略类实现及多线程内存池实现等部分，深入探讨了内存池的初始化、内存分配与回收的具体实现。 ... [详细]

蜡笔小新 2024-11-25 17:44:11
cmd
进程管理：并发、并行、子进程启动与进程池应用

本文介绍了进程的基本概念及其在操作系统中的重要性，探讨了进程与程序的区别，以及如何通过多进程实现并发和并行。文章还详细讲解了Python中的multiprocessing模块，包括Process类的使用方法、进程间的同步与异步调用、阻塞与非阻塞操作，并通过实例演示了进程池的应用。 ... [详细]

蜡笔小新 2024-11-25 16:40:13

路路

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章