当前位置: 开发笔记 > 编程语言 > 正文

Lucene7.2.1系列（二）luke使用及索引文档的基本操作

作者：mobiledu2502923043 | 来源：互联网 | 2023-08-10 19:15

lucene7,2,1,系列,二,luke,使用,及,索引,

系列文章：

Lucene系列（一）快速入门

Lucene系列（二）luke使用及索引文档的基本操作

Lucene系列（三）查询及高亮

luke入门

简介：

github地址：https://github.com/DmitryKey/luke

下载地址：https://github.com/DmitryKey/luke/releases
luke图标
Luke是一个用于Lucene/Solr/Elasticsearch 搜索引擎的，方便开发和诊断的 GUI（可视化）工具。

它有以下功能：

查看文档并分析其内容（用于存储字段）
在索引中搜索
执行索引维护：索引运行状况检查；索引优化（运行前需要备份）
从hdfs读取索引
将索引或其部分导出为XML格式
测试定制的Lucene分析工具
创建自己的插件

luke适用的搜索引擎

Apache Lucene. 大多数情况下，luke可以打开由纯Lucene生成的lucene索引。现在人们做出纯粹的Lucene索引吗？
Apache Solr. Solr和Lucene共享相同的代码库，所以luke很自然可以打开Solr生成的Lucene索引。
Elasticsearch. Elasticsearch使用Lucene作为其最低级别的搜索引擎基础。所以luke也可以打开它的索引！

下载安装与简单使用

下载安装

3.

4.

索引文档的CRUD操作

创建项目并添加Maven依赖

  junit junit 4.12 test     org.apache.lucene lucene-core 7.2.1    org.apache.lucene lucene-queryparser 7.2.1    org.apache.lucene lucene-analyzers-common 7.2.1

我们下面要用到单元测试，所以这里我们添加了Junit单元测试的依赖（版本为4.12，2018/3/30日最新的版本）

相关测试代码

主方法：

package lucene_index_crud; import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.StringField; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.Term; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.junit.Test; public class Txt1 { // 下面是测试用到的数据 private String ids[] = { "1", "2", "3" }; private String citys[] = { "qingdao", "nanjing", "shanghai" }; private String descs[] = { "Qingdao is a beautiful city.", "Nanjing is a city of culture.", "Shanghai is a bustling city." }; //Directory对象 private Directory dir; }

相关测试方法编写：

1)测试创建索引

 /** * 创建索引 * @throws Exception */ @Test public void testWriteIndex() throws Exception { //写入索引文档的路径 dir = FSDirectory.open(Paths.get("D:\\lucene\\index_crud\\indexdata")); IndexWriter writer = getWriter(); for (int i = 0; i

 通过luke查看相关信息：


 注意： 创建索引之后，后续测试方法才能正确运行。
 2)测试写入了几个文档：
  /** * 测试写了几个文档 * * @throws Exception */ @Test public void testIndexWriter() throws Exception { //写入索引文档的路径 dir = FSDirectory.open(Paths.get("D:\\lucene\\index_crud\\indexdata")); IndexWriter writer = getWriter(); System.out.println("写入了" + writer.numDocs() + "个文档"); writer.close(); }
 
3)测试读取了几个文档：
  /** * 测试读取了几个文档 * * @throws Exception */ @Test public void testIndexReader() throws Exception { //写入索引文档的路径 dir = FSDirectory.open(Paths.get("D:\\lucene\\index_crud\\indexdata")); IndexReader reader = DirectoryReader.open(dir); System.out.println("最大文档数：" + reader.maxDoc()); System.out.println("实际文档数：" + reader.numDocs()); reader.close(); }
 
4)测试删除 在合并前：
  /** * 测试删除 在合并前 * * @throws Exception */ @Test public void testDeleteBeforeMerge() throws Exception { //写入索引文档的路径 dir = FSDirectory.open(Paths.get("D:\\lucene\\index_crud\\indexdata")); IndexWriter writer = getWriter(); System.out.println("删除前：" + writer.numDocs()); writer.deleteDocuments(new Term("id", "1")); writer.commit(); System.out.println("writer.maxDoc()：" + writer.maxDoc()); System.out.println("writer.numDocs()：" + writer.numDocs()); writer.close(); }
 
5)测试删除 在合并后：
 我们这里先把dataindex目录下的文件删除，然后运行上面的testWriteIndex() 方法之后再测试。
  /** * 测试删除 在合并后 * * @throws Exception */ @Test public void testDeleteAfterMerge() throws Exception { //写入索引文档的路径 dir = FSDirectory.open(Paths.get("D:\\lucene\\index_crud\\indexdata")); IndexWriter writer = getWriter(); System.out.println("删除前：" + writer.numDocs()); writer.deleteDocuments(new Term("id", "1")); writer.forceMergeDeletes(); // 强制删除 writer.commit(); System.out.println("writer.maxDoc()：" + writer.maxDoc()); System.out.println("writer.numDocs()：" + writer.numDocs()); writer.close(); }
 
6)测试更新操作：
 我们这里先把dataindex目录下的文件删除，然后运行上面的testWriteIndex() 方法之后再测试。
  /** * 测试更新 * * @throws Exception */ @Test public void testUpdate() throws Exception { // 写入索引文档的路径 dir = FSDirectory.open(Paths.get("D:\\lucene\\index_crud\\indexdata")); IndexWriter writer = getWriter(); Document doc = new Document(); doc.add(new StringField("id", "1", Field.Store.YES)); doc.add(new StringField("city", "beijing", Field.Store.YES)); doc.add(new TextField("desc", "beijing is a city.", Field.Store.NO)); writer.updateDocument(new Term("id", "1"), doc); writer.close(); }
 
 欢迎关注我的微信公众号（分享各种Java学习资源，面试题，以及企业级Java实战项目回复关键字免费领取）：
 Lucene我想暂时先更新到这里，仅仅这三篇文章想掌握Lucene是远远不够的。另外我这里三篇文章都用的最新的jar包，Lucene更新太快，5系列后的版本和之前的有些地方还是有挺大差距的，就比如为文档域设置权值的setBoost方法6.6以后已经被废除了等等。因为时间有限，所以我就草草的看了一下Lucene的官方文档，大多数内容还是看java1234网站的这个视频来学习的，然后在版本和部分代码上做了改进。截止2018/4/1，上述代码所用的jar包皆为最新。
 最后推荐一下自己觉得还不错的Lucene学习网站/博客：
 官方网站：Welcome to Apache Lucene
 Github:Apache Lucene and Solr
 Lucene专栏
 搜索系统18：lucene索引文件结构
 Lucene6.6的介绍和使用




    
        
                        lucene
                        git
                        https
                        key
                        solr
                        elasticsearch
                        搜索
                        hdfs
                        xml
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        config
                        Spring Boot与Graylog集成实现微服务日志聚合与分析
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何在Graylog中配置输入源，并详细说明了Spring Boot项目中集成Graylog的日志聚合和分析方法，包括logback.xml的多环境配置。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-17 11:47:30
                    

                

                
                                
                    
                        config
                        mybatis 详解（七）一对一、一对多、多对多
                    

                    
                                                
                            
                        
                                                
                        mybatis详解（七）------一 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-17 10:03:06
                    

                

                                
                    
                    
                
                
                                
                    
                        main
                        用示例链接 Java 中的 hashset
                    

                    
                                                
                        用示例链接 Java 中的 hashset ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-16 17:52:24
                    

                

                
                                
                    
                        main
                        java rabbitmq topic_rabbitmq+topic+java
                    

                    
                                                
                        可参照github代码：https:github.comrabbitmqrabbitmq-tutorialsblobmasterjavaEmitLogTopic.ja ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-15 18:14:04
                    

                

                
                                
                    
                        config
                        HDFS API
                    

                    
                                                
                        Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 17:31:50
                    

                

                
                                
                    
                        post
                        Spring Boot 中配置全局文件上传路径并实现文件上传功能
                    

                    
                                                
                            
                        
                                                
                        本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 11:19:38
                    

                

                
                                
                    
                        install
                        python包requests 发送http请求，获取响应数据
                    

                    
                                                
                        文章目录python包-requests关于requests包安装和使用pythonrequests请求超时设置工作中遇到的常见问题整理访问https网站，报错cer ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-17 09:54:22
                    

                

                
                                
                    
                        install
                        Hadoop Datanode DataXceiver 错误处理问题
                    

                    
                                                
                            
                        
                                                
                        Ambari 每分钟会向 Datanode 发送一次“ping”请求以确保其正常运行。然而，Datanode 在处理空内容时没有相应的逻辑，导致出现错误。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-16 21:12:43
                    

                

                
                                
                    
                        match
                        java解析json转Map
                    

                    
                                                
                        java解析json转Map前段时间在做json报文处理的时候，写了一个针对不同格式json转map的处理工具方法，总结记录如下：1、单节点单层级、单节点多层级json转mapim ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-15 18:21:27
                    

                

                
                                
                    
                        main
                        解决Jenkins编译过程中ERROR: Failed to Parse POMs的问题
                    

                    
                                                
                            
                        
                                                
                        在使用Jenkins进行自动化构建时，有时会遇到“ERROR: Failed to parse POMs”的错误。本文将详细分析该问题的原因，并提供有效的解决方案。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-15 18:17:00
                    

                

                
                                
                    
                        main
                        深入解析Java中的空指针异常及其预防策略
                    

                    
                                                
                            
                        
                                                
                        空指针异常（NullPointerException，简称NPE）是Java编程中最常见的异常之一。尽管其成因显而易见，但开发人员往往容易忽视或未能及时采取措施。本文将详细介绍如何有效避免空指针异常，帮助开发者提升代码质量。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-15 15:04:40
                    

                

                
                                
                    
                        match
                        javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例
                    

                    
                                                
                        javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 15:24:50
                    

                

                
                                
                    
                        match
                        使用Java和PDFBox实现PDF局部切割
                    

                    
                                                
                        本文介绍了如何使用Java和PDFBox库根据坐标值对PDF文件进行局部切割的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 13:04:52
                    

                

                
                                
                    
                        config
                        com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例
                    

                    
                                                
                        com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 10:47:33
                    

                

                
                                
                    
                        scala
                        如何在Java中使用DButils类
                    

                    
                                                
                            
                        
                                                
                        这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-12 13:46:11

















    

    
        
            
            
                
                
            

            
                mobiledu2502923043            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    post
                
                                
                    default
                
                                
                    bitmap
                
                                
                    rsa
                
                                
                    case
                
                                
                    loops
                
                                
                    httpclient
                
                                
                    email
                
                                
                    const
                
                                
                    install
                
                                
                    testing
                
                                
                    node.js
                
                                
                    main
                
                                
                    vbscript
                
                                
                    scala
                
                                
                    md5
                
                                
                    datetime
                
                                
                    php
                
                                
                    match
                
                                
                    merge
                
                                
                    audio
                
                                
                    dagger
                
                                
                    config
                
                                
                    solr
                
                                
                    fetch
                
                                
                    iostream
                
                                
                    netty
                
                                
                    python2
                
                                
                    keyword
                
                                
                    join
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1哪些大公司不拒绝小三阳？
                
                                
                    2高德足迹地图在哪里_高德地图上线“查岗功能”
                
                                
                    3excel不均匀坐标轴_Excel|操作题第24套(下)
                
                                
                    4为啥每次要请示老板，我就会觉得紧张？
                
                                
                    5光影魔术手分辨率300dpi怎么设置
                
                                
                    6还在傻傻的分类汉字吗?答案已经有了.
                
                                
                    7抖音怎么设置隐私 设置隐私教程
                
                                
                    8Word如何调整页面设置？
                
                                
                    9vivo应用锁怎么设置？
                
                                
                    10台电P98 air如何设置锁屏图？
                
                                
                    11华为M3平板怎么隐藏图标和设置手势?
                
                                
                    12美图秀秀怎么为图片调色？
                
                                
                    13关于ACL的IN和OUT
                
                                
                    14有源带通滤波器电路图(二阶有源低通滤波器原理)
                
                                
                    15photoshop画多个路径转换为选区老是显示未选择任何像素