热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于Lucene创建索引库

使用indexwriter对象创建索引1.1.实现步骤整体思想:1.采集文件系统中的文档数据,放入Lucene的Document中2.写入索引库()对文档(Documen

使用indexwriter对象创建索引

1.1. 实现步骤

整体思想 :1.采集文件系统中的文档数据,放入Lucene的Document中
2.写入索引库()对文档(Document)进行分词创建索引(利用IndexWriter对象 )

  第一步:创建一个java工程,并导入jar包。

  第二步:创建一个indexwriter对象。

    1)指定索引库的存放位置Directory对象

    2)指定一个分析器,对文档内容进行分析。

  第二步:创建document对象。

  第三步:创建field对象,将field添加到document对象中。

  第四步:使用indexwriter对象将document对象写入索引库,此过程进行索引创建。并将索引和document对象写入索引库。

  第五步:关闭IndexWriter对象。

1.2. Field域的属性

  是否分词:

           分词的作用是为了索引

           需要分词: 文件名称, 文件内容

           不需要分词: 不需要索引的域不需要分词,还有就是分词后无意义的域不需要分词

                         比如: id, 身份证号

   是否索引:

           索引的的目的是为了搜索.

           需要搜索的域就一定要创建索引,只有创建了索引才能被搜索出来

           不需要搜索的域可以不创建索引

           需要索引: 文件名称, 文件内容, id, 身份证号等

           不需要索引: 比如图片地址不需要创建索引, e:\\xxx.jpg

                      因为根据图片地址搜索无意义

   是否存储:

           存储的目的是为了显示.

    是否存储看个人需要,存储就是将内容放入Document文档对象中保存出来,会额外占用磁盘空间, 如果搜索的时候需要马上显示出来可以放入document中也就是要存储,这样查询显示速度快, 如果不是马上立刻需要显示出来,则不需要存储。       

1.3. 代码实现

 

//创建索引

  

@Test
    public void testIndexCreate() throws Exception{
        //***整体思想 :1.采集文件系统中的文档数据,放入Lucene的Document中
        //             2.写入索引库()对文档(Document)进行分词创建索引(利用IndexWriter对象 )

        //创建文档列表,保存多个document
        List  docList=new ArrayList();
        //指定文件所在目录
        File dir=new File("E:\\ideaworkpase\\demotest\\searchsource");
        //循环取出文件
        for(File file:dir.listFiles()){
            // 文件名称
            String fileName=file.getName();
            //文件内容
            String fileCOntext= FileUtils.readFileToString(file);
            //文件大小
            Long fileSize=FileUtils.sizeOf(file);

            //文档对象,文件系统中的一个文件就是一个document对象
            Document doc=new Document();
            //第一个参数:域名
            //第二个参数:域值
            //第三个参数:是否存储
            TextField nameField=new TextField("fileName",fileName, Field.Store.YES);
            TextField cOntextField=new TextField("fileContext",fileContext, Field.Store.YES);
            TextField sizeField=new TextField("fileSize",fileSize.toString(), Field.Store.YES);

            //将所有的域存入文档中
            doc.add(nameField);
            doc.add(contextField);
            doc.add(sizeField);
            //将文档存入文档集合中
            docList.add(doc);
        }

        //创建分词器,StandarAnalyzer标准分词器,对英文分词效果很好,对中文单字分词
        Analyzer analyzer=new StandardAnalyzer();

        //指定索引和文档存储的路径
        Directory directory= FSDirectory.open(new File("E:\\ideaworkpase\\demotest\\luceneindex"));
        //创建写对象的初始化对象
        IndexWriterConfig cOnfig=new IndexWriterConfig(Version.LUCENE_4_10_3,analyzer);
        //创建索引和文档写对象
        IndexWriter indexWriter=new IndexWriter(directory,config);

        //将文档加入索引和文档的写对象中
        for(Document doc:docList){
            indexWriter.addDocument(doc);
        }
        //提交
        indexWriter.close();
        //关闭流
        indexWriter.close();
    }

  


推荐阅读
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 开发笔记:spring boot项目打成war包部署到服务器的步骤与注意事项
    本文介绍了将spring boot项目打成war包并部署到服务器的步骤与注意事项。通过本文的学习,读者可以了解到如何将spring boot项目打包成war包,并成功地部署到服务器上。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中,有两种配置文件,一种 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文介绍了Swing组件的用法,重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联,可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法,并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • Spring框架《一》简介
    Spring框架《一》1.Spring概述1.1简介1.2Spring模板二、IOC容器和Bean1.IOC和DI简介2.三种通过类型获取bean3.给bean的属性赋值3.1依赖 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
author-avatar
潙沵悈煙卻悈鋽孒沵
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有