Solr中文分词器配置讲解(IKAnalyzer和mmseg4j)

作者：旧梦半分_399 | 来源：互联网 | 2023-05-18 00:03

1IKAnalyzer分词器配置。1.1拷贝IKAnalyzer2012_u6\IKAnalyzer2012_u6.jar到C:\apache-tomcat-6.0.32\webapps\solr

1 IKAnalyzer分词器配置。

1.1拷贝IKAnalyzer2012_u6\IKAnalyzer2012_u6.jar到C:\apache-tomcat-6.0.32\webapps\

solr\WEB-INF\lib文件夹下面

1.2 在C:\apache-tomcat-6.0.32\webapps\solr\WEB-INF文件夹下面新建classes文件夹，拷贝IKAnalyzer2012_u6\IKAnalyzer.cfg.xml和IKAnalyzer2012_u6\stopword.dic到classes文件夹里面，修改IKAnalyzer.cfg.xml，新增

ext.dic;

在classes下面新建ext.dic文件，ext.dic里面是新增自己要添加的扩展词，stopword.dic里面是自己新增的停止词，有些词语分词没什么意义，所以我们就要把它过滤掉，例如a an and 啊哦，修改完之后把编码保存为UTF-8格式，要不然不起效果，

1.3 修改C:\solr\apache-solr-3.4.0\example\multicore\core0\conf\schema.xml文件，新增类型text_ik，title_search字段类型改成text_ik。

1.4 reindex solr数据之后，进行查询，可以查看分词效果。

1.5 搜索足球，得到这笔数据，分词成功。

2 mmseg4j分词器配置。

2.1把mmseg4j-1.8.5\dist下面的所有jar文件拷贝到C:\apache-tomcat-6.0.32\webapps\

solr\WEB-INF\lib文件夹下面

2.2 拷贝data到C:\solr\apache-solr-3.4.0\example\multicore中（与core文件平级），并改名为dic。

2.2.1 chars.dic，是单个字，和对应的频率，一行一对，字在全面，频率在后面，中间用空格分开。这个文件的信息是complex模式要用到的。在最后一条过虑规则中使用了频率信息。从1.5版后已经把它打包进jar里，一般不用关心它。不过可以在词库目录下放一个同名文件覆盖它。

2.2.2 units.dic，是单位的字，如：分、秒、年。这一文件是我在 mmseg4j 1.6后加入的，也是一行一条。主要是在数字后面的单位信息切分好，不与words.dic中的词有混淆。同时也打包进jar里，目前还是试行，如果不喜欢它，可以用空的文件放到词库目录下覆盖它。

2.2.3 words.dic，是核心的词库文件，一行一条，不需要其它任何数据（如词长）。1.0版是用rmmseg（ruby的mmseg实现）的词库。1.5版后mmseg4j改用sogou词库，可以http://www.sogou.com/labs/dl/w.html找到下载。然后我把它去了频率等信息，并转为UTF-8编码。

2.2.4 words-my.dic，是自定义词库文件（其实是 mmseg4j可以从多个文件读取词）。这功能是1.6版加入的。它的格式与words.dic一样，只不过XXX部分是如您自己写的名字，如：源码包里的data/words-my.dic。注意：自定义词库文件名必需是"words"为前缀和".dic"为后缀。

2.2.5修改完之后把编码保存为UTF-8格式，要不然不起效果，

2.3 修改C:\solr\apache-solr-3.4.0\example\multicore\core0\conf\schema.xml文件，新增类型text_mmseg4j，title_sort字段类型改成text_mmseg4j。

2.4 reindex solr数据之后，进行查询，可以查看分词效果。

2.5 搜索足球，得到这笔数据，分词成功。

推荐阅读

filter
Spring 高级教程（15）：Spring AOP（3）—— 使用注解配置切面（1）：方法执行前后的增强处理

本文介绍了如何在Spring框架中使用AspectJ实现AOP编程，重点讲解了通过注解配置切面的方法，包括方法执行前和方法执行后的增强处理。阅读本文前，请确保已安装并配置好AspectJ。 ... [详细]

蜡笔小新 2024-11-15 15:57:13
string
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
filter
Hibernate实战笔记14：深入解析反向工程技术

在处理遗留数据库的映射时，反向工程是一个重要的初始步骤。由于实体模式已经在数据库系统中存在，Hibernate 提供了自动化工具来简化这一过程，帮助开发人员快速生成持久化类和映射文件。通过反向工程，可以显著提高开发效率并减少手动配置的错误。此外，该工具还支持对现有数据库结构进行分析，自动生成符合 Hibernate 规范的配置文件，从而加速项目的启动和开发周期。 ... [详细]

蜡笔小新 2024-11-04 18:29:37
string
利用Java实现WebSocket实时消息推送技术

本文探讨了利用Java实现WebSocket实时消息推送技术的方法。与传统的轮询、长连接或短连接等方案相比，WebSocket提供了一种更为高效和低延迟的双向通信机制。通过建立持久连接，服务器能够主动向客户端推送数据，从而实现真正的实时消息传递。此外，本文还介绍了WebSocket在实际应用中的优势和应用场景，并提供了详细的实现步骤和技术细节。 ... [详细]

蜡笔小新 2024-11-04 15:50:18
string
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
main
Android布局优化：使用标签

本文主要介绍如何使用标签来优化Android应用的UI布局，通过减少不必要的视图层次，提高应用性能。 ... [详细]

蜡笔小新 2024-11-15 11:06:03
process
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
string
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
string
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
string
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
string
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
string
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
uri
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
string
探索资源访问的学习路径与方法

本文探讨了资源访问的学习路径与方法，旨在帮助学习者更高效地获取和利用各类资源。通过分析不同资源的特点和应用场景，提出了多种实用的学习策略和技术手段，为学习者提供了系统的指导和建议。 ... [详细]

蜡笔小新 2024-11-06 18:03:41
uri
Spring框架中的面向切面编程（AOP）技术详解

面向切面编程（AOP）是Spring框架中的关键技术之一，它通过将横切关注点从业务逻辑中分离出来，实现了代码的模块化和重用。AOP的核心思想是将程序运行过程中需要多次处理的功能（如日志记录、事务管理等）封装成独立的模块，即切面，并在特定的连接点（如方法调用）动态地应用这些切面。这种方式不仅提高了代码的可维护性和可读性，还简化了业务逻辑的实现。Spring AOP利用代理机制，在不修改原有代码的基础上，实现了对目标对象的增强。 ... [详细]

蜡笔小新 2024-11-04 17:23:10

旧梦半分_399

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章