lucene学习笔记3-索引-创建域选项

作者：一个怪瓜的自白 | 来源：互联网 | 2023-09-08 21:26

分词存储设置范围最佳实践：分词索引：Field.Index.*存储：Field.Store.YESNO适用范围NOT_ANALYZED_NOT_NORMSYES标识符(主键、文件名)，电话号码，身份

分词存储设置范围最佳实践：

分词索引：Field.Index.*	存储：Field.Store.YES/NO	适用范围
NOT_ANALYZED_NOT_NORMS	YES	标识符(主键、文件名)，电话号码，身份证号，姓名，日期
ANALYZED	YES	文档标题和摘要
ANALYZED	NO	文档正文
NO	YES	文档类型，数据库主键(不进行索引)
NOT_ANALYZED	NO	隐藏关键字

import java.io.File;
import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

public class IndexUtil
{

    private String[] ids = { "1", "2", "3", "4", "5", "6" };

    private String[] emails = { "b1", "b2", "b3", "b4", "b5", "b6" };

    private String[] cOntent= { "b1 aaaa this is hello ",
                    "b2 i kill to you ma", "b3 cc wo are you from hold",
                    "b4 Index Reader", "b5 r RUNTIME DATA AREA",
                    "b6 java lang ClassLoader" };

    private int[] attachs = { 2, 3, 1, 4, 5, 5 };

    private String[] names = { "wc1", "wc2", "wc3", "wc4", "wc5", "wc6" };

    private Directory directory = null;

    public IndexUtil()
    {

        try
        {
            // 设置索引目录
            directory = FSDirectory.open(new File("D:\\workspace\\helloLucene\\IndexUtil\\"));
        }
        catch (IOException e)
        {
            // TODO Auto-generated catch
            // block
            e.printStackTrace();
        }
    }

    public void index()
    {

        IndexWriter writer = null;
        try
        {
            writer = new IndexWriter(directory,
                                     new IndexWriterConfig(Version.LUCENE_35,
                                                           new StandardAnalyzer(Version.LUCENE_35)));
            Document doc = null;
            for (int i = 0; i             {
                doc = new Document();
                // id需要存储不分词不加权
                doc.add(new Field("id",
                                  ids[i],
                                  Field.Store.YES,
                                  Field.Index.NOT_ANALYZED_NO_NORMS));
                // email需要存储不分词，希望区分公司邮件为重点-加权重
                doc.add(new Field("email",
                                  emails[i],
                                  Field.Store.YES,
                                  Field.Index.NOT_ANALYZED));
                // content不存储分词
                doc.add(new Field("content",
                                  content[i],
                                  Field.Store.NO,
                                  Field.Index.ANALYZED));
                // name需要存储不分词不加权
                doc.add(new Field("name",
                                  names[i],
                                  Field.Store.YES,
                                  Field.Index.NOT_ANALYZED_NO_NORMS));

                writer.addDocument(doc);
            }
        }
        catch (Exception e)
        {
            // TODO Auto-generated catch
            // block
            e.printStackTrace();
        }
        finally
        {
            try
            {
                if (writer != null)
                {
                    writer.close();
                }
            }
            catch (Exception e)
            {
                e.printStackTrace();
            }
        }
    }

    public void query() {
        try {
            IndexReader reader = IndexReader.open(directory);
            //通过reader可以有效的获取到文档的数量
            System.out.println("返回索引中的Document的数 numDocs:"+reader.numDocs());
            System.out.println("下一个Document对象的编号 maxDocs:"+reader.maxDoc());
            System.out.println("deleteDocs:"+reader.numDeletedDocs());
            reader.close();
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    
    public static void main(String[] args)
    {

        IndexUtil iu = new IndexUtil();
        iu.index();
        iu.query();
        System.out.println("end...");

    }

}

Lucene使用文件扩展名标识不同的索引文件。如.fnm文件存储域Fields名称及其属性，.fdt存储文档各项域数据，.fdx存储文档在fdt中的偏移位置即其索引文件，.frq存储文档中term位置数据，.tii文件存储term字典，.tis文件存储term频率数据，.prx存储term接近度数据，.nrm存储调节因子数据，另外 segments_X文件存储当前最新索引片段的信息，其中X为其最新修改版本，segments.gen存储当前版本即X值。

它们的关系图则如下所示：

FNM 保存Field域信息，代码中定义一致。

第0x05字节表示存储了4个域

FDX 保存Field域索引，保存了每个document的词域数据在.fdt的起始位置（每个位置数据用Uint64，8个字节）

如图：第0x03字节表示？？，第0个document的词域数据信息起始于.fdt的第0x04字节，第1个document的词域数据信息起始于.fdt的第0x14字节。

FDT 保存Field域数据，按document依次存储词域数据。每个词域数据信息包括该词域序号（FieldNum）、词域位信息（Bits）和词域数据。词域数据又分字符串和二进制2种类型。字符串数据包含字符个数（非字节数）和字符串内容，字符串内容是经过utf-8编码的。

如图：0x04字节表示该document有3个词域，第0x05-0x09字节表示第0个词域数据信息，其中第0x05、0x09字节表示词域序号，即FieldNum；第0x05字节表示词域位信息，即Bits；第0x07、0x0b表示词域数据字符长度，即1、2个；第0x08字节就是词域数据，即“1”，第0x0C、0x0D字节就是词域数据，即“b1”。。

FRQ 评分和排序，词语所在文档的文档列表(docID)和该词语出现在文档中的频率信息。
TII 词典，索引文件。保存了tis中每隔IndexInterval个词的位置信息，这是为了加快对词典文件tii中词的查找速度
TIS 词典数据文件。存放索引表中Dictionary的所有Term的信息

推荐阅读

main
设计模式系列-原型模式

一、上篇回顾上篇创建者模式中，我们主要讲述了创建者的几类实现方案，和创建者模式的应用的场景和特点，创建者模式适合创建复杂的对象，并且这些对象的每个组成部分的详细创建步骤可以是动态的变化的，但 ... [详细]

蜡笔小新 2024-11-27 14:54:32
main
Skynet 源码解析：启动流程与核心组件

本文详细解析 Skynet 的启动流程，包括配置文件的读取、环境变量的设置、主要线程的启动（如 timer、socket、monitor 和 worker 线程），以及消息队列的实现机制。 ... [详细]

蜡笔小新 2024-11-25 16:23:05
char
【Java数据结构和算法】008栈

目录0、警醒自己一、栈的应用场景和介绍1、栈的应用场景一个实际的场景：我的思考：2、栈的介绍入栈演示图：出栈演示图 ... [详细]

蜡笔小新 2024-11-27 12:54:42
char
MVC框架下使用DataGrid实现时间筛选与枚举填充

本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能，具体包括使用jQuery UI的DatePicker插件添加时间筛选条件，并通过枚举数据填充下拉列表。 ... [详细]

蜡笔小新 2024-11-27 11:02:33
char
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
main
深入解析Android Activity生命周期

本文详细探讨了Android中Activity的生命周期，通过实例代码和详细的步骤说明，帮助开发者更好地理解和掌握Activity各个阶段的行为。 ... [详细]

蜡笔小新 2024-11-27 03:28:32
config
深入探讨Web服务器与动态语言的交互机制：CGI、FastCGI与PHP-FPM

本文详细解析了Web服务器（如Apache、Nginx等）与动态语言（如PHP）之间通过CGI、FastCGI及PHP-FPM进行交互的具体过程，旨在帮助开发者更好地理解这些技术背后的原理。 ... [详细]

蜡笔小新 2024-11-26 20:03:27
main
Golang与微服务架构：构建高效微服务

本文探讨了Golang在微服务架构中的应用，包括Golang的基本概念、微服务开发的优势、常用开发工具以及具体实践案例。 ... [详细]

蜡笔小新 2024-11-26 19:21:09
main
基于Workman的PHP即时通讯系统：支持单聊、群聊、视频会议及实时音视频功能

本文介绍了如何使用Workman框架构建一个功能全面的即时通讯系统，该系统不仅支持一对一聊天、群组聊天，还集成了视频会议和实时音视频通话功能，同时提供了红包发送等附加功能。 ... [详细]

蜡笔小新 2024-11-26 15:42:43
main
深入解析：Linux下的GCC编译器

GCC（GNU Compiler Collection）是GNU项目下的一款功能全面且高效的多平台编译工具，广泛应用于Linux操作系统中。本文将详细介绍GCC的特点及其基本使用方法。 ... [详细]

蜡笔小新 2024-11-26 11:20:38
main
Java中利用POI库读取Doc和Docx文件的方法

近期在研究Java IO流技术时，遇到了一个关于如何正确读取Doc文档而不出现乱码的问题。本文将详细介绍使用Apache POI库处理Doc和Docx文件的具体方法，包括必要的库引入和示例代码。 ... [详细]

蜡笔小新 2024-11-25 19:51:38
main
Oracle RMAN 增量备份详解：差异增量与累积增量

本文详细介绍了Oracle RMAN中的增量备份机制，重点解析了差异增量和累积增量备份的概念及其在不同Oracle版本中的实现。通过对比两种备份方式的特点，帮助读者选择合适的备份策略。 ... [详细]

蜡笔小新 2024-11-25 19:07:53
config
首次周测解析与答案

本文档提供了首次周测的答案解析，涵盖特殊符号、命令作用、路径说明以及实战练习等内容。 ... [详细]

蜡笔小新 2024-11-25 14:28:11
const
深入理解Web API中的特性路由

本文探讨了Web API 2中特性的路由机制，特别是如何利用它来构建RESTful风格的URI。文章不仅介绍了基本的特性路由使用方法，还详细说明了如何通过特性路由进行API版本控制、HTTP方法的指定、路由前缀的应用以及路由约束的设置。 ... [详细]

蜡笔小新 2024-11-26 20:52:15
main
Java中如何精确计算程序执行时间

本文详细介绍了使用Java语言来测量程序运行时间的方法，包括代码示例和实现步骤，旨在帮助开发者更好地理解和应用时间测量技术。 ... [详细]

蜡笔小新 2024-11-26 17:12:52

一个怪瓜的自白

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章