lucene6.6+拼音分词+ik分词实现

作者：小七 | 来源：互联网 | 2023-05-18 19:46

原来项目使用的是solr进行建立索引与查询，最近想改为lucene。对于最新版的lucene网上的资料没有solr多，并且solr很多功能直接配置就可以使用，但是lucene都要通过api

原来项目使用的是solr进行建立索引与查询，最近想改为lucene。对于最新版的lucene网上的资料没有solr多，并且solr很多功能直接配置就可以使用，但是lucene都要通过api进行封装使用。下面是自己使用lucene6.6+拼音分词和ik中文分词实现的功能：

主要工具包：

lucene6.6相关jar包
pinyinAnalyzer.jar
ik-analyzer-solr6.x.jar
pinyin4j-2.5.0.jar

IKAnalyzer.cfg.xml
mydict.dic
stopword.dic

lucene的jar包可以通过maven直接构建下载，其他三个包下载地址。其中ik的分词包是修改过重新打包已适用于6.0以上的solr和lucene版本。

在solr中的拼音分词器是在managed-schema文件中配置的：

在lucene中有自带的中文分词器但是效果一般，使用ik可以自定义自己的分词包dic，分词包直接决定了分词效果的好坏。

自定义一个分词类IndexPinyinAnalyzer继承Analyzer，也可以直接使用pinyinAnalyzer.jar中的PinyinAnalyzer类进行分词，但是他里面使用的mmseg4j中文分词，所以我在这自定义一个analyzer去将他的中文分词替换为ik分词，这部分看一下源码不难理解。

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.wltea.analyzer.lucene.IKTokenizer;
import utn.index.mmseg.analysis.PinyinTokenFilter;

/**
 * @author sggq
 * @Date 2017年9月22日
 * @Description 自定义分词Analyzer：ik中文分词+拼音分词
 */
public class IndexPinyinAnalyzer extends Analyzer {
	private boolean userSmart;
	public IndexPinyinAnalyzer(boolean userSmart){
		this.userSmart = userSmart;
	}
	@Override
	protected TokenStreamComponents createComponents(String fieldName) {
		 Tokenizer tokenizer = new IKTokenizer(userSmart);
	     TokenStream tokenStream = new PinyinTokenFilter(tokenizer, true, true, 2);
	     return new Analyzer.TokenStreamComponents(tokenizer, tokenStream);
	}
}

ik分词源码中通过IKAnalyzer.cfg.xml配置来加载自定义的分词包dic，IKAnalyzer.cfg.xml与mydict.dic和stopword.dic放在项目的src/main/resources下，就可以直接加载。

建立好自己的分词类，在lucene建立索引时就可以直接使用这个analyzer，同时在查询索引时也可以使用这个analyzer。

分词的效果如下：

加载扩展词典：mydict.dic
加载扩展停止词典：stopword.dic
中华人民共和国
zhonghuarenmingongheguo
zhonghuarenmingonghaiguo
zhrmghg
zhonghuarenmingonghuguo
zhonghuarenmingonghuoguo
中华人民
zhrm
zhonghuarenmin
中华
zhonghua
zh
华人
huaren
hr
人民共和国
renmingonghaiguo
renmingonghuoguo
renmingonghuguo
rmghg
renmingongheguo
共和国
gongheguo
ghg
gonghuoguo
gonghaiguo
gonghuguo
共和
gh
gonghai
gonghuo
gonghe
gonghu
国

推荐阅读

string
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
string
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
string
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
export
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
string
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
string
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
request
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
string
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
string
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
string
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
merge
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
string
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
string
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
string
TypeScript: 泛型的力量与价值

本文探讨了 TypeScript 中泛型的重要性和应用场景，通过多个实例详细解析了泛型如何提升代码的复用性和类型安全性。 ... [详细]

蜡笔小新 2024-11-15 12:12:42
string
JavaScript面部交换代码及实现方法

本文详细介绍了如何使用JavaScript实现面部交换功能，包括基本原理和具体实现步骤。 ... [详细]

蜡笔小新 2024-11-14 15:54:06

小七

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章