当前位置: 开发笔记 > 编程语言 > 正文

IKAnalyzer和lucene结合使用

作者：书友48169582 | 来源：互联网 | 2023-05-17 20:25

特别注意：版本问题（IKAnalyzer的版本中注意各个版本的细微区别，小编就是栽在IKAnalyzer2012_U5和IKAnalyzer2012FF上了）版本匹配：1、IKAnalyze

特别注意：版本问题（IK Analyzer的版本中注意各个版本的细微区别，小编就是栽在IK Analyzer2012_U5 和IK Analyzer2012FF上了）

版本匹配：

1、IK Analyzer 2012_U5 支持的是 lucene 3.2-3.6版本

2、IK Analyzer2012 FF（你问啥是FF，其实就是For 4.0，在API和功能上保持不变，只是让其支持了Lucene4.0和Solr4.0，让这部分的用户能用起来。）

下载地址：

GoogleCode :http://code.google.com/p/ik-analyzer/downloads

配置说明：

把 IKAnalyzer中的IKAnalyzer.cfg.xml, ext.dic（如果找不到，可以手动创建一个该文件）, stopword.dic文件放到代码的根目录中。

需要在项目中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

使用IK Analyzer实现

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class Test2 {
public static void main(String[] args) throws IOException {
String text="基于java语言开发的轻量级的中文分词工具包";
//创建分词对象
Analyzer anal=new IKAnalyzer(true);
StringReader reader=new StringReader(text);
//分词
TokenStream ts=anal.tokenStream("", reader);
CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
//遍历分词数据
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}
reader.close();
System.out.println();
}
}

使用lucene

package com.haha.test;
import java.io.IOException;
import java.io.StringReader;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
public class Test3 {
public static void main(String[] args) throws IOException {
String text="基于java语言开发的轻量级的中文分词工具包";
StringReader sr=new StringReader(text);
IKSegmenter ik=new IKSegmenter(sr, true);
Lexeme lex=null;
while((lex=ik.next())!=null){
System.out.print(lex.getLexemeText()+"|");
}
}
}

运行后结果:

基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|

推荐阅读

solr
Lucene 全文检索技术入门

一、搜索引擎的历史萌芽：Archie、Gopher起步：Robot（网络机器人）的出现与spider（网络爬虫）发展：excite、galax ... [详细]

蜡笔小新 2023-10-11 19:18:42
solr
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
post
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
solr
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48
solr
阿里云 Aliplayer高级功能介绍(八)：安全播放

如何保障视频内容的安全，不被盗链、非法下载和传播，阿里云视频点播已经有一套完善的机 ... [详细]

蜡笔小新 2024-11-15 18:04:15
schema
Spring 高级教程（15）：Spring AOP（3）—— 使用注解配置切面（1）：方法执行前后的增强处理

本文介绍了如何在Spring框架中使用AspectJ实现AOP编程，重点讲解了通过注解配置切面的方法，包括方法执行前和方法执行后的增强处理。阅读本文前，请确保已安装并配置好AspectJ。 ... [详细]

蜡笔小新 2024-11-15 15:57:13
schema
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
数组
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
数组
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
schema
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
schema
Maven Web项目创建时JSP文件常见错误及解决方案

Maven Web项目创建时JSP文件常见错误及解决方案 ... [详细]

蜡笔小新 2024-11-10 07:05:14
schema
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
schema
Ant JAR 执行错误：Java I/O 异常 — 无法启动程序 ${aAPT}，错误代码 2，指定文件或目录不存在

在尝试为 Unity 编译一个简单的 Java 库时，运行 `ant jar` 命令后遇到了 Java I/O 异常。具体错误信息为“无法启动程序 ${aAPT}，错误代码 2”，这通常表示指定的文件或目录不存在。此问题可能是由于环境配置不正确或路径设置有误导致的。建议检查相关路径和环境变量，确保所有依赖项都已正确安装和配置。 ... [详细]

蜡笔小新 2024-11-04 16:40:40
solr
solr导入mysql_Solr导入MySQL中的数据

一、目标将MySQL数据库中的数据导入至Solr中，并且由Solr生成中文索引，使用Solr查询信息。二、数据导入1、将solr-8.2.0dist下的 ... [详细]

蜡笔小新 2023-10-12 18:08:48
solr
solr倒排索引（转载）

原文地址：http:blog.csdn.netchichengitarticledetails9235157http:blog.csdn.netnjpjsoftdevarticle ... [详细]

蜡笔小新 2023-10-11 18:30:46

书友48169582

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章