当前位置: 开发笔记 > 编程语言 > 正文

（转）全文检索技术学习(三)——Lucene支持中文分词

作者：总裁班的草根 | 来源：互联网 | 2023-08-31 15:43

http:blog.csdn.netyerenyuan_pkuarticledetails72591778分析器（Analyzer）的执行过程如下图是语

http://blog.csdn.net/yerenyuan_pku/article/details/72591778

分析器&＃xff08;Analyzer&＃xff09;的执行过程

如下图是语汇单元的生成过程&＃xff1a;

从一个Reader字符流开始&＃xff0c;创建一个基于Reader的Tokenizer分词器&＃xff0c;经过三个TokenFilter生成语汇单元Token。
要看分析器的分析效果&＃xff0c;只需要看TokenStream中的内容就可以了。每个分析器都有一个方法tokenStream&＃xff0c;返回的是一个TokenStream对象。

标准分析器的分词效果

之前我们创建索引库的时候&＃xff0c;就用到了官方推荐的标准分析器——org.apache.lucene.analysis.standard.StandardAnalyzer。现在我们就来看看其分词效果&＃xff0c;可在LuenceFirst单元测试类中编写如下方法&＃xff1a;

public class LuenceFirst { // 查看分析器的分词效果 &＃64;Test public void testAnanlyzer() throws IOException { // 1、创建一个分析器对象 Analyzer analyzer &＃61; new StandardAnalyzer(); // 官方推荐的标准分析器 // 2、从分析器对象中获得tokenStream对象 // 参数1&＃xff1a;域的名称&＃xff0c;可以为null&＃xff0c;或者是"" // 参数2&＃xff1a;要分析的文本 TokenStream tokenStream &＃61; analyzer.tokenStream("", "The Spring Framework provides a comprehensive programming and configuration model."); // 3、设置一个引用(相当于指针)&＃xff0c;这个引用可以是多种类型&＃xff0c;可以是关键词的引用&＃xff0c;偏移量的引用等等 CharTermAttribute charTermAttribute &＃61; tokenStream.addAttribute(CharTermAttribute.class); // charTermAttribute对象代表当前的关键词 // 偏移量(其实就是关键词在文档中出现的位置&＃xff0c;拿到这个位置有什么用呢&＃xff1f;因为我们将来可能要对该关键词进行高亮显示&＃xff0c;进行高亮显示要知道这个关键词在哪&＃xff1f;) OffsetAttribute offsetAttribute &＃61; tokenStream.addAttribute(OffsetAttribute.class); // 4、调用tokenStream的reset方法&＃xff0c;不调用该方法&＃xff0c;会抛出一个异常 tokenStream.reset(); // 5、使用while循环来遍历单词列表 while (tokenStream.incrementToken()) { System.out.println("start→" &＃43; offsetAttribute.startOffset()); // 关键词起始位置 // 6、打印单词 System.out.println(charTermAttribute); System.out.println("end→" &＃43; offsetAttribute.endOffset()); // 关键词结束位置 } // 7、关闭tokenStream对象 tokenStream.close(); } }

运行以上方法&＃xff0c;Eclipse控制台打印&＃xff1a;

从上图中我们可以清楚地看到当前的关键词&＃xff0c;以及该关键词的起始位置和结束位置。

中文分析器分析

Lucene自带中文分词器

Lucene自带的中文分词器有&＃xff1a;

StandardAnalyzer
单字分词&＃xff0c;就是按照中文一个字一个字地进行分词。如&＃xff1a;“我爱中国”&＃xff0c;效果&＃xff1a;“我”、“爱”、“中”、“国”。
CJKAnalyzer
二分法分词&＃xff0c;按两个字进行切分。如&＃xff1a;“我是中国人”&＃xff0c;效果&＃xff1a;“我是”、“是中”、“中国”、“国人”。
上边这两个分词器一看就无法满足需求。
SmartChineseAnalyzer
对中文支持较好&＃xff0c;但扩展性差&＃xff0c;扩展词库&＃xff0c;禁用词库和同义词库等不好处理。

现在我们来看看第三个中文分析器的分析效果&＃xff0c;相比前两个中文分析器&＃xff0c;SmartChineseAnalyzer绝对要胜出一筹。为了观看其分析效果&＃xff0c;我们可将LuenceFirst单元测试类中的testAnanlyzer方法改造为&＃xff1a;

public class LuenceFirst { // 查看分析器的分词效果 &＃64;Test public void testAnanlyzer() throws IOException { // 1、创建一个分析器对象 Analyzer analyzer &＃61; new SmartChineseAnalyzer(); // 智能中文分析器 // 2、从分析器对象中获得tokenStream对象 // 参数1&＃xff1a;域的名称&＃xff0c;可以为null&＃xff0c;或者是"" // 参数2&＃xff1a;要分析的文本 TokenStream tokenStream &＃61; analyzer.tokenStream("", "数据库中存储的数据是结构化数据&＃xff0c;即行数据java&＃xff0c;可以用二维表结构来逻辑表达实现的数据。"); // 3、设置一个引用(相当于指针)&＃xff0c;这个引用可以是多种类型&＃xff0c;可以是关键词的引用&＃xff0c;偏移量的引用等等 CharTermAttribute charTermAttribute &＃61; tokenStream.addAttribute(CharTermAttribute.class); // charTermAttribute对象代表当前的关键词 // 偏移量(其实就是关键词在文档中出现的位置&＃xff0c;拿到这个位置有什么用呢&＃xff1f;因为我们将来可能要对该关键词进行高亮显示&＃xff0c;进行高亮显示要知道这个关键词在哪&＃xff1f;) OffsetAttribute offsetAttribute &＃61; tokenStream.addAttribute(OffsetAttribute.class); // 4、调用tokenStream的reset方法&＃xff0c;不调用该方法&＃xff0c;会抛出一个异常 tokenStream.reset(); // 5、使用while循环来遍历单词列表 while (tokenStream.incrementToken()) { System.out.println("start→" &＃43; offsetAttribute.startOffset()); // 关键词起始位置 // 6、打印单词 System.out.println(charTermAttribute); System.out.println("end→" &＃43; offsetAttribute.endOffset()); // 关键词结束位置 } // 7、关闭tokenStream对象 tokenStream.close(); } }

运行以上方法&＃xff0c;Eclipse控制台打印&＃xff1a;

虽然SmartChineseAnalyzer分析器对中文支持较好&＃xff0c;但扩展性差&＃xff0c;扩展词库&＃xff0c;禁用词库和同义词库等不好处理。故实际开发中我们也是弃用的&＃xff0c;取而代之的是第三方中文分析器。

第三方中文分析器

第三方中文分析器有&＃xff1a;

paoding&＃xff1a;庖丁解牛最新版在https://code.google.com/p/paoding/ &＃xff0c;其最多只支持Lucene3.0&＃xff0c;且最新提交的代码在2008-06-03&＃xff0c;在svn中最新也是2010年提交&＃xff0c;已经过时&＃xff0c;不予考虑。
mmseg4j&＃xff1a;最新版已从https://code.google.com/p/mmseg4j/移至https://github.com/chenlb/mmseg4j-solr&＃xff0c;支持Lucene4.10&＃xff0c;且在github中最新提交代码是2014年6月&＃xff0c;从09年&＃xff5e;14年一共有18个版本&＃xff0c;也就是一年几乎有3个大小版本&＃xff0c;有较大的活跃度&＃xff0c;用了mmseg算法。
IK-analyzer&＃xff1a;最新版在https://code.google.com/p/ik-analyzer/上&＃xff0c;支持Lucene4.10&＃xff0c;从2006年12月推出1.0版开始&＃xff0c;IKAnalyzer已经推出了4个大版本。最初&＃xff0c;它是以开源项目Luence为应用主体的&＃xff0c;结合词典分词和文法分析算法的中文分词组件。从3.0版本开始&＃xff0c;IK发展为面向Java的公用分词组件&＃xff0c;独立于Lucene项&＃xff0c;同时提供了对Lucene的默认优化实现。在2012版本中&＃xff0c;IK实现了简单的分词歧义排除算法&＃xff0c;标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就在2012年12月后没有再更新了。
ansj_seg&＃xff1a;最新版本在[https://github.com/NLPchina/ansj_seg tags](https://github.com/NLPchina/ansj_seg tags)&＃xff0c;仅有1.1版本&＃xff0c;从2012年到2014年更新了大小6次&＃xff0c;但是作者本人在2014年10月10日说明&＃xff1a;“可能我以后没有精力来维护ansj_seg了”&＃xff0c;现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene&＃xff0c;是一个由CRF&＃xff08;条件随机场&＃xff09;算法所做的分词算法。
imdict-chinese-analyzer&＃xff1a;最新版在https://code.google.com/p/imdict-chinese-analyzer/&＃xff0c;最新更新也在2009年5月&＃xff0c;可下载源码&＃xff0c;不支持Lucene4.10。它是利用HMM&＃xff08;隐马尔科夫链&＃xff09;算法。
Jcseg&＃xff1a;最新版本在git.oschina.net/lionsoul/jcseg&＃xff0c;支持Lucene 4.10&＃xff0c;作者有较高的活跃度。其利用的是mmseg算法。

但在这里&＃xff0c;我使用的是IK-analyzer&＃xff0c;所以下面的讲解也是围绕着该中文分析器来进行的。下面是我下载的IK-analyzer&＃xff1a;

解压缩之后&＃xff0c;其目录结构是&＃xff1a;

IK-analyzer中文分析器的使用

IK-analyzer中文分析器的使用步骤&＃xff1a;

把IKAnalyzer2012FF_u1.jar包添加到工程中。
把配置文件和扩展词典和停用词词典添加到classpath下。

注意&＃xff1a;扩展词典和停用词词典这两个文件的字符集一定要保证是UTF-8字符集&＃xff0c;注意是无BOM的UTF-8编码&＃xff0c;严禁使用Windows的记事本编辑。
下面我们来看看IK-analyzer这个第三方中文分析器的分析效果。现在随着互联网的日趋发展&＃xff0c;网络用语层出不穷&＃xff0c;例如“高富帅”&＃xff0c;“白富美”等等&＃xff0c;像这样的网络用语是不需要进行分词的&＃xff0c;而是当作一个整体的关键词&＃xff0c; 这样像这种不用分词的网络用语就应该存储在扩展词典中。为了清楚地观看IK-analyzer这个第三方中文分析器的分析效果&＃xff0c;在扩展词典添加“高富帅”。如下&＃xff1a;

接着将LuenceFirst单元测试类中的testAnanlyzer方法改造为&＃xff1a;

public class LuenceFirst { // 查看分析器的分词效果 &＃64;Test public void testAnanlyzer() throws IOException { // 1、创建一个分析器对象 Analyzer analyzer &＃61; new IKAnalyzer(); // 智能中文分析器 // 2、从分析器对象中获得tokenStream对象 // 参数1&＃xff1a;域的名称&＃xff0c;可以为null&＃xff0c;或者是"" // 参数2&＃xff1a;要分析的文本 TokenStream tokenStream &＃61; analyzer.tokenStream("", "数据库中存储的数据是结构化数据高富帅&＃xff0c;即行数据java&＃xff0c;可以用二维表结构来逻辑表达实现的数据。"); // 3、设置一个引用(相当于指针)&＃xff0c;这个引用可以是多种类型&＃xff0c;可以是关键词的引用&＃xff0c;偏移量的引用等等 CharTermAttribute charTermAttribute &＃61; tokenStream.addAttribute(CharTermAttribute.class); // charTermAttribute对象代表当前的关键词 // 偏移量(其实就是关键词在文档中出现的位置&＃xff0c;拿到这个位置有什么用呢&＃xff1f;因为我们将来可能要对该关键词进行高亮显示&＃xff0c;进行高亮显示要知道这个关键词在哪&＃xff1f;) OffsetAttribute offsetAttribute &＃61; tokenStream.addAttribute(OffsetAttribute.class); // 4、调用tokenStream的reset方法&＃xff0c;不调用该方法&＃xff0c;会抛出一个异常 tokenStream.reset(); // 5、使用while循环来遍历单词列表 while (tokenStream.incrementToken()) { System.out.println("start→" &＃43; offsetAttribute.startOffset()); // 关键词起始位置 // 6、打印单词 System.out.println(charTermAttribute); System.out.println("end→" &＃43; offsetAttribute.endOffset()); // 关键词结束位置 } // 7、关闭tokenStream对象 tokenStream.close(); } }

运行以上方法&＃xff0c;Eclipse控制台打印&＃xff1a;

从上图可清楚地看出“高富帅”并没有分词&＃xff0c;这正是我们所期望的结果。
除此之外&＃xff0c;对于一些敏感的词&＃xff0c;如“习”&＃xff0c;像这样的敏感词汇就不应该出现在单词列表中&＃xff0c;所以可将这种敏感词汇存储在停用词词典中&＃xff0c;如下&＃xff1a;

接着将LuenceFirst单元测试类中的testAnanlyzer方法改造为&＃xff1a;

运行以上方法&＃xff0c;Eclipse控制台打印&＃xff1a;

从上图可知&＃xff0c;像“”这样的敏感词汇并没有出现在单词列表中。

分析器的应用场景

索引时使用Analyzer

输入关键字进行搜索&＃xff0c;当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析&＃xff0c;需要经过Analyzer分析器处理生成语汇单元&＃xff08;Token&＃xff09;。分析器分析的对象是文档中的Field域。当Field的属性tokenized&＃xff08;是否分词&＃xff09;为true时会对Field值进行分析&＃xff0c;如下图&＃xff1a;

对于一些Field可以不用分析&＃xff1a;

不作为查询条件的内容&＃xff0c;比如文件路径
不是匹配内容中的词而匹配Field的整体内容&＃xff0c;比如订单号、身份证号等

搜索时使用Analyzer

对搜索关键字进行分析和索引分析一样&＃xff0c;使用Analyzer对搜索关键字进行分析、分词处理&＃xff0c;使用分析后的每个词语进行搜索。比如&＃xff1a;搜索关键字&＃xff1a;spring web&＃xff0c;经过分析器进行分词&＃xff0c;得出&＃xff1a;spring web&＃xff0c;拿词去索引词典表查找 &＃xff0c;找到索引链接到Document&＃xff0c;解析Document内容。
对于匹配整体Field域的查询可以在搜索时不分析&＃xff0c;比如根据订单号、身份证号查询等。
注意&＃xff1a;搜索使用的分析器要和索引使用的分析器最好保持一致。

顶

踩

推荐阅读

io
基于Workman的PHP即时通讯系统：支持单聊、群聊、视频会议及实时音视频功能

本文介绍了如何使用Workman框架构建一个功能全面的即时通讯系统，该系统不仅支持一对一聊天、群组聊天，还集成了视频会议和实时音视频通话功能，同时提供了红包发送等附加功能。 ... [详细]

蜡笔小新 2024-11-26 15:42:43
io
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30
io
深入探讨Web服务器与动态语言的交互机制：CGI、FastCGI与PHP-FPM

本文详细解析了Web服务器（如Apache、Nginx等）与动态语言（如PHP）之间通过CGI、FastCGI及PHP-FPM进行交互的具体过程，旨在帮助开发者更好地理解这些技术背后的原理。 ... [详细]

蜡笔小新 2024-11-26 20:03:27
web
Golang与微服务架构：构建高效微服务

本文探讨了Golang在微服务架构中的应用，包括Golang的基本概念、微服务开发的优势、常用开发工具以及具体实践案例。 ... [详细]

蜡笔小新 2024-11-26 19:21:09
default
Vue.js@2.6.10更新内置毛病处机制，Fundebug同步支撑响应毛病监控

择要：Fundebug的JavaScript毛病监控插件同步支撑Vue.js异步毛病监控。Vue.js从降生至今已5年，尤大在本年2月份宣布了严重更新，即Vue2.6。更新包含新增 ... [详细]

蜡笔小新 2024-11-26 13:58:45
command
利用 Python 和 Scapy 实施 DNS 欺骗攻击的技术解析

本文详细介绍了如何使用 Python 编程语言中的 Scapy 库执行 DNS 欺骗攻击，包括必要的软件安装、攻击流程及代码示例。 ... [详细]

蜡笔小新 2024-11-25 15:52:30
io
华为云openEuler环境下的Web应用部署实践

本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤，包括配置yum源、安装Apache、MariaDB、PHP及其相关组件，并完成WordPress的安装与配置过程。 ... [详细]

蜡笔小新 2024-11-25 12:39:31
io
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
default
Spring Security基础配置详解

本文详细介绍了Spring Security的基础配置方法，包括如何搭建Maven多模块工程以及具体的安全配置步骤，帮助开发者更好地理解和应用这一强大的安全框架。 ... [详细]

蜡笔小新 2024-11-22 20:52:07
io
如何在 VS Code 中调试 Vue 项目

本文详细介绍了如何通过配置 Chrome 和 VS Code 来实现对 Vue 项目的高效调试。步骤包括启用 Chrome 的远程调试功能、安装 VS Code 插件以及正确配置 launch.json 文件。 ... [详细]

蜡笔小新 2024-11-27 11:52:35
io
深入解析 com.codahale.metrics.servlets.AdminServlet.() 方法及其应用实例

本文详细探讨了 Java 中 com.codahale.metrics.servlets.AdminServlet.() 方法的实现与应用，并提供了多个实际项目中的代码示例，帮助开发者更好地理解和使用这一方法。 ... [详细]

蜡笔小新 2024-11-26 19:33:26
io
Python Elasticsearch DSL 查询指南

本文简要介绍了如何使用 Python Elasticsearch DSL 进行基本和高级查询，包括连接 Elasticsearch、执行简单和复杂查询、聚合、排序及分页等。 ... [详细]

蜡笔小新 2024-11-25 14:09:42
io
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
io
如何使用Maven将依赖插件一并打包进JAR文件

本文详细介绍了在使用Maven构建项目时，如何将所需的依赖插件一同打包进最终的JAR文件中，以避免手动部署依赖库的麻烦。 ... [详细]

蜡笔小新 2024-11-23 22:51:34
io
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23

总裁班的草根

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章