开发搜索引擎初步（一）建立索引（Lucene实现）

作者：韭花帖_420 | 来源：互联网 | 2023-07-13 18:08

开发自己的搜索引擎完成了一段时间了，现在准备开始梳理一下思路，把以前的总结一下，为以后做真正的“谷歌”埋下伏笔，呵呵。。。。

开发自己的搜索引擎完成了一段时间了&＃xff0c;现在准备开始梳理一下思路&＃xff0c;把以前的总结一下&＃xff0c;为以后做真正的“谷歌”埋下伏笔&＃xff0c;呵呵。。。。。。

一。Lucene的下载

牛逼的Apache旗下的Lucene&＃xff0c;呵呵&＃xff0c;无人不知啊&＃xff0c;http://lucene.apache.org/,去这个地址自己下载&＃xff0c;别说不会Dowmload

二.使用Lucene建立索引

将下载下来的包解压&＃xff0c;把里面的Core,memory,analyzer啥的都拿出来&＃xff0c;配置到自己的Eclipse上面&＃xff0c;下面的事情就是写代码了。

package com.dreamers.creatindex;import java.io.File; import java.util.ArrayList;import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.store.FSDirectory; import org.dom4j.DocumentException; import org.wltea.analyzer.lucene.IKAnalyzer;import com.dreamers.xml.*; import com.dreamers.read.*;/*** &＃64;category 创建所有XML索引* &＃64;author bird**/ public class CreatIndex {private String INDEX_STORE_PATH ;//创建索引&＃64;SuppressWarnings("deprecation")public void creatIndex(){try{GetPath path &＃61; new GetPath();INDEX_STORE_PATH &＃61; path.getIndexPath();File file &＃61; new File(INDEX_STORE_PATH);Analyzer analyzer &＃61; new IKAnalyzer();XmlReader xml &＃61; new XmlReader();FSDirectory directory &＃61; FSDirectory.open(file);IndexWriter writer &＃61; new IndexWriter(directory, analyzer, true,IndexWriter.MaxFieldLength.LIMITED);ArrayList lisId &＃61; xml.getId();ArrayList lisTitle &＃61; xml.getTitle();ArrayList lisKeyWords &＃61; xml.getKeyWords();ArrayList lisKind &＃61; xml.getKind();ArrayList lisDescribe &＃61; xml.getDescribe();ArrayList lisDate &＃61; xml.getDate();ArrayList lisUrl &＃61; xml.getUrl();ArrayList lisAuthor &＃61; xml.getAuthor();ArrayList lisPublisher &＃61; xml.getPublisher();//System.out.println(lisUrl.get(5));for (int i &＃61; 0; i }

这里不多说&＃xff0c;最上面的每个list里面都藏有巨大的信息&＃xff0c;都是一些字符串&＃xff0c;就当是放到容器里的字符窜吧&＃xff0c;然后下面的建立索引的过程都是一样的&＃xff0c;代码比较短&＃xff0c;就不需要什么注释了&＃xff0c;呵呵

推荐阅读

string
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
string
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
string
Java项目中两个文件互相调用时出现函数错误，请求专业解决方案

在Java项目中，当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中，该文件位于 `cn.javass.bookmgr` 包下，并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行，请求提供专业的解决方案，以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手，进行全面排查和调试。 ... [详细]

蜡笔小新 2024-11-08 17:04:11
string
深入解析Java多线程同步机制与应用

本文深入探讨了Java多线程环境下的同步机制及其应用，重点介绍了`synchronized`关键字的使用方法和原理。`synchronized`关键字主要用于确保多个线程在访问共享资源时的互斥性和原子性。通过具体示例，如在一个类中使用`synchronized`修饰方法，展示了如何实现线程安全的代码块。此外，文章还讨论了`ReentrantLock`等其他同步工具的优缺点，并提供了实际应用场景中的最佳实践。 ... [详细]

蜡笔小新 2024-11-08 16:11:26
string
使用ObjectMapper实现JSON与JavaBean的高效转换

本文介绍了如何利用ObjectMapper实现JSON与JavaBean之间的高效转换。ObjectMapper是Jackson库的核心组件，能够便捷地将Java对象序列化为JSON格式，并支持从JSON、XML以及文件等多种数据源反序列化为Java对象。此外，还探讨了在实际应用中如何优化转换性能，以提升系统整体效率。 ... [详细]

蜡笔小新 2024-11-08 13:21:48
eval
SSH集成过程中常见问题及解决方案

在使用SSH框架进行项目开发时，经常会遇到一些常见的问题。例如，在Spring配置文件中配置AOP事务声明后，进行单元测试时可能会出现“No Hibernate Session bound to thread”的错误。本文将详细探讨这一问题的原因，并提供有效的解决方案，帮助开发者顺利解决此类问题。 ... [详细]

蜡笔小新 2024-11-07 03:17:49
string
如何在Eclipse中批量转换Java源代码文件的编码格式从GBK到UTF-8

在Eclipse中批量转换Java源代码文件的编码格式从GBK到UTF-8是一项常见的需求。通过编写简单的Java代码，可以高效地实现这一任务。该方法不仅适用于Java文件，还可以用于其他类型的文本文件编码转换。具体实现可以通过导入`java.io.File`类来操作文件系统，从而完成批量转换。此外，建议在转换过程中添加异常处理机制，以确保代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-05 17:44:15
string
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
string
深入理解Java中的多态性概念及其应用

多态是面向对象编程中的三大核心特性之一，与封装和继承共同构成了面向对象的基础。多态使得代码更加灵活和可扩展，封装和继承则为其提供了必要的支持。本文将深入探讨多态的概念及其在Java中的具体应用，帮助读者全面理解和掌握这一关键知识点。 ... [详细]

蜡笔小新 2024-11-09 13:38:15
string
求助：如何使用Pull方法解析标签内容，悬赏50分求完美解决方案

在处理 XML 数据时，如果需要解析 `` 标签的内容，可以采用 Pull 解析方法。Pull 解析是一种高效的 XML 解析方式，适用于流式数据处理。具体实现中，可以通过 Java 的 `XmlPullParser` 或其他类似的库来逐步读取和解析 XML 文档中的 `` 元素。这样不仅能够提高解析效率，还能减少内存占用。本文将详细介绍如何使用 Pull 解析方法来提取 `` 标签的内容，并提供一个示例代码，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-11-09 11:50:14
string
深入解析 Java 基础中的私有静态内部类（Private Static Inner Class）

在Java基础中，私有静态内部类是一种常见的设计模式，主要用于防止外部类的直接调用或实例化。这种内部类仅服务于其所属的外部类，确保了代码的封装性和安全性。通过分析JDK源码，我们可以发现许多常用类中都包含了私有静态内部类，这些内部类虽然功能强大，但其复杂性往往让人感到困惑。本文将深入探讨私有静态内部类的作用、实现方式及其在实际开发中的应用，帮助读者更好地理解和使用这一重要的编程技巧。 ... [详细]

蜡笔小新 2024-11-09 11:03:51
string
如何在Java中获取当前操作系统的进程列表及其详细信息

本文探讨了如何利用Java代码获取当前本地操作系统中正在运行的进程列表及其详细信息。通过引入必要的包和类，开发者可以轻松地实现这一功能，为系统监控和管理提供有力支持。示例代码展示了具体实现方法，适用于需要了解系统进程状态的开发人员。 ... [详细]

蜡笔小新 2024-11-09 10:45:26
string
关于使用JavaScript在多个页面间传递参数的技术探讨

本文探讨了使用JavaScript在不同页面间传递参数的技术方法。具体而言，从a.html页面跳转至b.html时，如何携带参数并使b.html替代当前页面显示，而非新开窗口。文中详细介绍了实现这一功能的代码及注释，帮助开发者更好地理解和应用该技术。 ... [详细]

蜡笔小新 2024-11-09 09:28:55
format
动态壁纸 LiveWallPaper：让您的桌面栩栩如生（第二篇）

在本文中，我们将继续探讨如何开发动态壁纸 LiveWallPaper，使您的桌面更加生动有趣。作为 2010 年 Google 暑期大学生博客分享大赛 Android 篇的一部分，我们将详细介绍 Ed Burnette 的《Hello, Android》第三版中的相关内容，并分享一些实用的开发技巧和经验。通过本篇文章，您将了解到如何利用 Android SDK 创建引人入胜的动态壁纸，提升用户体验。 ... [详细]

蜡笔小新 2024-11-06 02:00:32
format
深入解析Java中的super关键字及其应用场景

在Java编程中，`super`关键字主要用于子类继承父类的场景下，当需要在子类的方法中调用父类的方法或访问父类的变量时。需要注意的是，在子类的`main`方法中，由于其静态特性，无法使用`super`或`this`关键字。此外，`super`还可以用于子类构造器中调用父类的构造器，以确保对象的正确初始化。 ... [详细]

蜡笔小新 2024-11-05 16:33:22

韭花帖_420

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章