solr4.4.0集成carrot2支持中文和添加自己的中文分词器的方法

作者：chen | 来源：互联网 | 2023-08-10 21:50

默认carrot2中是支持中文的，但是需要一个参数进行指定carrot.lang=CHINESE_SIMPLIFIEDcarrot2支持的语言可以参考

默认 carrot2中是支持中文的，但是需要一个参数进行指定 carrot.lang= CHINESE_SIMPLIFIED carrot2支持的语言可以参考http://doc.carrot2.org/#div.attribute.lingo.MultilingualClustering.defaultLanguage 但是默认， carrot2使用的分词类是org.apache.luc

默认 carrot2中是支持中文的，但是需要一个参数进行指定

carrot.lang=CHINESE_SIMPLIFIED

carrot2支持的语言可以参考http://doc.carrot2.org/#div.attribute.lingo.MultilingualClustering.defaultLanguage

但是默认，carrot2使用的分词类是 org.apache.lucene.analysis.cn.smart.SentenceTokenizer，这是看 carrot源代码找到的源码如下(在org.apache.solr.handler.clustering.carrot2.LuceneCarrot2TokenizerFactory类中)

private ChineseTokenizer() throws Exception {

this.tempCharSequence = new MutableCharArray(new char[0]);

// As Smart Chinese is not available during compile time,

// we need to resort to reflection.

final Class tokenizerClass = ReflectionUtils.classForName(

"org.apache.lucene.analysis.cn.smart.SentenceTokenizer", false);

this.sentenceTokenizer = (Tokenizer) tokenizerClass.getConstructor(

Reader.class).newInstance((Reader) null);

this.tokenFilterClass = ReflectionUtils.classForName(

"org.apache.lucene.analysis.cn.smart.WordTokenFilter", false);

}

如果，没有这个类，carrot2默认就会使用一个 ExtendedWhitespaceTokenizer 使用空格进行切词，所以如果要使用carrot2自己的中文切词，需要加入 lucene-analyzers-smartcn-4.4.0.jar

当然也可以使用自己的分词包，比如IK等等，把上述源码替换成相应的类即可。

推荐阅读

uri
设计无SQL死锁的编码模式 - Achieving SQL Deadlock-Free Design

在运行于MS SQL Server 2005的.NET 2.0 Web应用中，我偶尔会遇到令人头疼的SQL死锁问题。过去，我们主要通过调整查询来解决这些问题，但这既耗时又不可靠。我希望能找到一种确定性的查询模式，确保从设计上彻底避免SQL死锁。 ... [详细]

蜡笔小新 2024-11-16 13:09:51
select
mybatis 详解（七）一对一、一对多、多对多

mybatis详解（七）------一 ... [详细]

蜡笔小新 2024-11-17 10:03:06
require
JSON Schema 和 XML Schema 数据校验

本文介绍了 JSON Schema 和 XML Schema 的基本概念，并详细讲解了如何使用 AJV 进行 JSON 数据校验。通过具体的示例和扩展方法，帮助读者更好地理解和应用这些工具。 ... [详细]

蜡笔小新 2024-11-16 09:03:28
byte
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
uri
Oracle SQL 第二天

本文介绍了 Oracle SQL 中的集合运算、子查询、数据处理、表的创建与管理等内容。包括查询部门号为10和20的员工信息、使用集合运算、子查询的注意事项、数据插入与删除、表的创建与修改等。 ... [详细]

蜡笔小新 2024-11-16 16:43:29
char
深入探讨C++中的GCD函数与队列

在iOS开发中，多线程技术的应用非常广泛，能够高效地执行多个调度任务。本文将重点介绍GCD（Grand Central Dispatch）在多线程开发中的应用，包括其函数和队列的实现细节。 ... [详细]

蜡笔小新 2024-11-16 14:59:50
char
C语言利用前缀表达式实现复杂科学计算器

用C语言实现的科学计算器，支持2种常量，10种基本函数，Ans寄存器。相对来说拓展性应该是不错的，思路是首先化简复杂名称的函 ... [详细]

蜡笔小新 2024-11-16 11:46:11
function
2023年最新指南：如何在PHP中屏蔽警告和错误

本文详细介绍了如何在PHP中屏蔽警告和错误，包括多种方法和最佳实践，帮助开发者提升代码质量和安全性。 ... [详细]

蜡笔小新 2024-11-16 02:00:40
uri
Android异步处理系列文章四篇之三

Android异步处理一：使用Thread+Handler实现非UI线程更新UI界面Android异步处理二：使用AsyncTask异步更新UI界面Android异步处理三：Handler+Loope ... [详细]

蜡笔小新 2024-11-15 19:09:29
uri
为什么UILongPressGestureRecognizer无法正常工作，而UITapGestureRecognizer却能正常运行？

我在一个UIImageView上附加了一个UILongPressGestureRecognizer，但无论如何配置，它都无法检测到长按手势。然而，当我将其替换为UITapGestureRecognizer时，后者却能正常工作。这究竟是怎么回事？ ... [详细]

蜡笔小新 2024-11-15 17:28:14
default
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
require
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
select
JavaScript中的事件处理机制

事件是程序各部分之间的一种通信方式，也是异步编程的一种实现形式。本文将详细介绍EventTarget接口及其相关方法，以及如何使用监听函数处理事件。 ... [详细]

蜡笔小新 2024-11-15 04:27:01
default
解决Unreal Engine中UMG按钮长时间按住自动释放的问题

本文探讨了在Unreal Engine中使用UMG按钮时，长时间按住按钮会导致自动释放的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-14 20:40:39

chen

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章