当前位置: 开发笔记 > 编程语言 > 正文

java中文分词工具_【java笔记】全文搜索技术Lucene

作者：情深深锋_433 | 来源：互联网 | 2023-08-09 20:56

实现一个文件的搜索功能，通过关键字搜索文件，凡是文件名或文件内容包括关键字的文件都需要找出来。数据分类：结构化数据:指具有固定格式或有限长

实现一个文件的搜索功能&＃xff0c;通过关键字搜索文件&＃xff0c;凡是文件名或文件内容包括关键字的文件都需要找出来。

数据分类&＃xff1a;

结构化数据: 指具有固定格式或有限长度的数据,如数据库等;

非结构化数据: 指不定长或无固定格式的数据, 如邮件、word 文档中的数据等;

全文检索原理:相当于字典,分为目录和正文两部分,查询的时候通过先查目录,然后通过目录上标注的页数去正文页查找需要的内容。

将文件中的内容提取出来, 将文字拆封成一个一个的词(分词), 将这些词组成索引(字典中的目录), 搜索的时候先搜索索引,通过索引找文档&＃xff0c;这种先建立索引&＃xff0c;再对索引进行搜索的过程就叫全文检索&＃xff1b;

分词: 去掉停用词(a, an, the ,的, 地, 得, 啊, 嗯 ,呵呵),因为搜索的时候搜索这些词没有意义,将句子拆分成词,去掉标点符号和空格&＃xff1b;

优点: 搜索速度快

缺点: 因为创建的索引需要占用磁盘空间,所以这个算法会使用掉更多的磁盘空间,这是用空间换时间&＃xff0c;对比顺序扫描法效率更高&＃xff1b;

Lucene实现全文检索&＃xff1a;

Lucene 是 apache 软件基金会 4 jakarta 项目组的一个子项目&＃xff0c;是一个开放源代码的全文检索引擎工具包&＃xff0c;但它不是一个完整的全文检索引擎&＃xff0c;而是一个全文检索引擎的架构&＃xff0c;Lucene 的目的是为软件开发人员提供一个简单易用的工具包&＃xff0c;以方便的在目标系统中实现全文检索的功能&＃xff0c;或者是以此为基础建立起完整的全文检索引擎。

Lucene是apache下的一个开放源代码的全文检索引擎工具包&＃xff0c;通过它可以实现全文检索。

Lucene包&＃xff1a;

lucene-core-4.10.3.jar 核心包

lucene-analyzers-common-4.10.3.jar 分词包

lucene-queryparser-4.10.3.jar 查询包

再配置文件中引入相应依赖&＃xff1a;

索引和检索流程图&＃xff1a;

1、绿色表示索引过程&＃xff0c;对要搜索的原始内容进行索引构建一个索引库&＃xff0c;索引过程包括&＃xff1a;获得原始文档à创建文档对象à分析文档à创建索引

2、红色表示搜索过程&＃xff0c;从索引库中搜索内容&＃xff0c;搜索过程包括&＃xff1a;用户通过搜索界面à创建查询à执行搜索&＃xff0c;从索引库搜索à渲染搜索结果

原始文档&＃xff1a;是指要索引和搜索的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。

本案例要获取磁盘上文件的内容&＃xff0c;可以通过文件流来读取文本文件的内容&＃xff0c;对于pdf、doc、xls等文件可通过第三方提供的解析工具读取文件内容&＃xff0c;比如Apache POI读取doc和xls的文件内容。

创建索引

索引结构&＃xff1a;域名:词

索引作用&＃xff1a;它里面有指针指向这个词来源的文档

中文分词器&＃xff08;重点&＃xff09;

IK-analyzer&＃xff1a; 最新版在https://code.google.com/p/ik-analyzer/上&＃xff0c;支持Lucene 4.10从2006年12月推出1.0版开始&＃xff0c; IKAnalyzer已经推出了4个大版本。最初&＃xff0c;它是以开源项目Luence为应用主体的&＃xff0c;结合词典分词和文法分析算法的中文分词组件。从3.0版本开始&＃xff0c;IK发展为面向Java的公用分词组件&＃xff0c;独立于Lucene项目&＃xff0c;同时提供了对Lucene的默认优化实现。在2012版本中&＃xff0c;IK实现了简单的分词歧义排除算法&＃xff0c;标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就是2012年12月后没有在更新。

1、添加pom依赖

2、配置IKAnalyzer.cfg.xml和ext.dic(UTF-8)、stopword.dic(UTF-8)

3、修改分词器&＃xff1a;Analyzer analyzer &＃61; new IKAnalyzer();

IKAnalyzer.cfg.xml&＃xff1a;

扩展词典&＃xff1a;ext.dic&＃xff08;按需定义&＃xff09;

停用词词典&＃xff1a;stopword.dic

4. Field的详细介绍(难点)

分词&＃xff1a;是否对域的内容进行分词处理。比如&＃xff1a;订单号、身份证号不需要分词

是否索引&＃xff1a;将Field分析后的词进行索引&＃xff0c;只有索引方可搜索到。

比如&＃xff1a;商品名称、商品简介分析后进行索引&＃xff0c;订单号、身份证号不用分析但也要索引&＃xff0c;这些将来都要作为查询条件。

是否存储&＃xff1a;将Field值存储在文档中&＃xff0c;存储在文档中的Field才可以从Document中获取

比如&＃xff1a;商品名称、订单号&＃xff0c;凡是将来要从Document中获取的Field都要存储。

注意:lucene底层的算法,钱数是要分词的,因为要根据价钱进行对比

索引库的维护&＃xff1a;

文档的删除

文档的添加

文档的修改

索引库的查询&＃xff08;重点&＃xff09;&＃xff1a;

对要搜索的信息创建Query查询对象&＃xff0c;Lucene会根据Query查询对象生成最终的查询语法&＃xff0c;类似关系数据库Sql语法一样Lucene也有自己的查询语法&＃xff0c;比如&＃xff1a;“name:lucene”表示查询Field的name为“lucene”的文档信息。

未完

推荐阅读

web
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
list
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
web
Java分层设计模式：详解与应用

在Java分层设计模式中，典型的三层架构（3-tier application）将业务应用细分为表现层（UI）、业务逻辑层（BLL）和数据访问层（DAL）。这种分层结构不仅有助于提高代码的可维护性和可扩展性，还能有效分离关注点，使各层职责更加明确。通过合理的设计和实现，三层架构能够显著提升系统的整体性能和稳定性。 ... [详细]

蜡笔小新 2024-11-07 17:14:51
web
帝国CMS中的信息归档功能详解及其重要性

本文详细解析了帝国CMS中的信息归档功能，并探讨了其在内容管理中的重要性。通过归档功能，用户可以有效地管理和组织大量内容，提高网站的运行效率和用户体验。此外，文章还介绍了如何利用该功能进行数据备份和恢复，确保网站数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-09 20:42:14
version
如何在Docker环境中高效利用数据库？ | Baeldung

在本文中，我们将探讨如何在Docker环境中高效地管理和利用数据库。首先，需要安装Docker Desktop以确保本地环境准备就绪。接下来，可以从Docker Hub中选择合适的数据库镜像，并通过简单的命令将其拉取到本地。此外，我们还将介绍如何配置和优化这些数据库容器，以实现最佳性能和安全性。 ... [详细]

蜡笔小新 2024-11-09 19:34:33
version
如何撰写适应变化的高效代码：策略与实践

编写高质量且适应变化的代码是每位程序员的追求。优质代码的关键在于其可维护性和可扩展性。本文将从面向对象编程的角度出发，探讨实现这一目标的具体策略与实践方法，帮助开发者提升代码效率和灵活性。 ... [详细]

蜡笔小新 2024-11-09 10:20:32
string
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
string
触发器的稳态数量分析及其应用价值

本文对数据库中的SQL触发器进行了稳态数量的详细分析，探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现，揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外，还介绍了如何在Ubuntu 22.04环境下配置和使用触发器，以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]

蜡笔小新 2024-11-08 18:09:54
lua
探究 Lua 在 .NET 生态系统中的应用与挑战：鲜为人知的研究领域

在当前的软件开发领域，Lua 作为一种轻量级脚本语言，在 .NET 生态系统中的应用逐渐受到关注。本文探讨了 Lua 在 .NET 环境下的集成方法及其面临的挑战，包括性能优化、互操作性和生态支持等方面。尽管存在一定的技术障碍，但通过不断的学习和实践，开发者能够克服这些困难，拓展 Lua 在 .NET 中的应用场景。 ... [详细]

蜡笔小新 2024-11-08 14:47:43
string
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
netty
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
export
Amoeba 优化 MySQL 读写分离性能

Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具，Amoeba 能够高效地处理应用程序的请求，并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例，从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力，还有效减少了主数据库的负担，确保了数据的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-08 19:19:47
web
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
web
PHP自学必备：从零开始的准备工作与工具选择

PHP自学必备：从零开始的准备工作与工具选择 ... [详细]

蜡笔小新 2024-11-07 15:13:09
web
REST与RPC：选择哪种API架构风格？

在探讨REST与RPC这两种API架构风格的选择时，本文首先介绍了RPC（远程过程调用）的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法，从而实现分布式系统的功能调用。相比之下，REST（Representational State Transfer）则基于资源的交互模型，通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点，帮助开发者根据具体需求做出合适的选择。 ... [详细]

蜡笔小新 2024-11-07 12:00:58

情深深锋_433

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章