热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

solr分词一:mmseg4j

刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一

   刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。

             几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词不再是首选,mmseg4j是更佳的选择。

             mmseg4j支持最多分词,是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 

             要想在Solr中整合mmseg4j其实很容易,只需要如下几个步骤

1、下载( https://code.google.com/p/mmseg4j/downloads/list )并解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的 solr /WEB-INF/lib中。(如果你的应用服务器下面没有 solr ,请参考《Tomcat中安装Solr》)。

有3个jar文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。

顺便提下,如果是在mmseg4j-1.9.0前, 则需要copy data目录到solr_home/solr中(与core平级),并改名为dic。进入到你想使用mmseg4j分词器的core中(此处以solr自带的collection1为例),用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码:


 <fieldType name="text_mmseg4j" class="solr.TextField" >
 <analyzer type="index">
 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" />
 analyzer>
 <analyzer type="query">
 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" />
 analyzer>
 fieldType>

2、 在mmseg4j-1.9.0后,如本例的mmseg4j-1.9.1中 ,就 可以不用 dicPath 参数,可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ,在Schema.xml中加入如下配置


  <fieldType name="text_mmseg4j_complex" class="solr.TextField" positiOnIncrementGap="100" >  
    <analyzer>  
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>  
    analyzer>  
  fieldType>  
  <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positiOnIncrementGap="100" >  
    <analyzer>  
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>  
    analyzer>  
  fieldType>  
  <fieldType name="text_mmseg4j_simple" class="solr.TextField" positiOnIncrementGap="100" >  
    <analyzer>  
      
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>	 
    analyzer>  
  fieldType>
  

3、引用mmseg4j分词器

只需要在该schema.xml中加入如下配置便可引用对应的mmseg4j分词器

<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
   <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
   <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>

通过以上步骤就可以成功配置mmseg4j分词器到solr中了。

然后就可以打开Solr Admin的Page进行分词分析了。但当输入中文(华南理工大学)并点击“Analyse Values”进行分析时,会发现如下的错误:  TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.


技术分享
该原因是源码的一个bug引起的,需要修改上面下载的mmseg4j-analysis-1.9.1.zip解压后的mmseg4j-analysis目录下的类:MMSegTokenizer.java,修改reset()方法并加上下面注释中的这一句

public void reset() throws IOException {
    //lucene 4.0
    //org.apache.lucene.analysis.Tokenizer.setReader(Reader)
    //setReader 自动被调用, input 自动被设置。
    super.reset();   //加这一句
    mmSeg.reset(input);
  }

修改后运行mvn clean package -DskipTests进行打包得到最新的mmseg4j-analysis-1.9.1.jar 并替换Tomcat下的solr下的WEB-INF/lib下的mmseg4j-analysis-1.9.1.jar。

重新启动Tomcat并访问Solr Admin Page,并在“Analysis”中输入中文进行分析,可以看到已经成功的进行分析。


技术分享
 

这样这个Bug就解决了。

另外,mmseg4j中文分词和庖丁中文分词的对比效果可以参照下面的结果,从结果可以看出,mmseg4j比起庖丁中文分词来说,是更好的选择。

paoding 分词效果:

  1. --------------------------  
  2. 清华大学  
  3. 清华 | 大 | 华大 | 大学 |  
  4. --------------------------  
  5. 华南理工大学  
  6. 华南 | 理工 | 大 | 大学 |  
  7. --------------------------  
  8. 广东工业大学  
  9. 广东 | 工业 | 大 | 业大 | 大学 |  
  10. --------------------------  
  11. 西伯利亚  
  12. 西伯 | 伯利 | 西伯利亚 |  
  13. --------------------------  
  14. 研究生命起源  
  15. 研究 | 研究生 | 生命 | 起源 |  
  16. --------------------------  
  17. 为首要考虑  
  18. 为首 | 首要 | 考虑 |  
  19. --------------------------  
  20. 化装和服装  
  21. 化装 | 和服 | 服装 |  
  22. --------------------------  
  23. 中国人民银行  
  24. 中国 | 国人 | 人民 | 银行 |  
  25. --------------------------  
  26. 中华人民共和国  
  27. 中华 | 华人 | 人民 | 共和 | 共和国 |  
  28. --------------------------  
  29. 羽毛球拍  
  30. 羽毛 | 羽毛球 | 球拍 |  
  31. --------------------------  
  32. 人民币  
  33. 人民 | 人民币 |  
  34. --------------------------  
  35. 很好听  
  36. 很好 | 好听 |  
  37. --------------------------  
  38. 下一个  
  39. 下一 | 一个 |  
  40. --------------------------  
  41. 为什么  
  42. 为什么 |  
  43. --------------------------  
  44. 北京首都机场  
  45. 北京 | 首都 | 机场 |  
  46. --------------------------  
  47. 东西已经拍卖了  
  48. 东西 | 已经 | 拍卖 | 卖了 |  
  49. --------------------------  
  50. 主人因之生气  
  51. 主人 | 生气 |  
  52. --------------------------  
  53. 虽然某些动物很凶恶  
  54. 动物 | 凶恶 |  
  55. --------------------------  
  56. 朋友真背叛了你了  
  57. 朋友 | 真 | 背叛 |  
  58. --------------------------  
  59. 建设盒蟹社会  
  60. 建设 | 盒蟹 | 社会 |  
  61. --------------------------  
  62. 建设盒少蟹社会  
  63. 建设 | 盒少 | 少蟹 | 社会 |  
  64. --------------------------  
  65. 我们家门前的大水沟很难过。  
  66. 我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |  
  67. --------------------------  
  68. 罐头不如果汁营养丰富。  
  69. 罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |  
  70. --------------------------  
  71. 今天真热,是游泳的好日子。  
  72. 今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |  
  73. --------------------------  
  74. 妹妹的数学只考十分,真丢脸。  
  75. 妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |  
  76. --------------------------  
  77. 我做事情,都是先从容易的做起。  
  78. 做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |  
  79. --------------------------  
  80. 老师说明天每个人参加大队接力时,一定要尽力。  
  81. 老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |  
  82. --------------------------  
  83. 小明把大便当作每天早上起床第一件要做的事  
  84. 小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |   

mmseg4j maxword 分词效果:

  1. --------------------------  
  2. 清华大学  
  3. 清华 | 大学 |  
  4. --------------------------  
  5. 华南理工大学  
  6. 华南 | 理工 | 工大 | 大学 |  
  7. --------------------------  
  8. 广东工业大学  
  9. 广东 | 工业 | 大学 |  
  10. --------------------------  
  11. 西伯利亚  
  12. 西 | 伯利 | 利亚 |  
  13. --------------------------  
  14. 研究生命起源  
  15. 研究 | 生命 | 起源 |  
  16. --------------------------  
  17. 为首要考虑  
  18. 为首 | 要 | 考虑 |  
  19. --------------------------  
  20. 化装和服装  
  21. 化装 | 和 | 服装 |  
  22. --------------------------  
  23. 中国人民银行  
  24. 中国 | 国人 | 人民 | 银行 |  
  25. --------------------------  
  26. 中华人民共和国  
  27. 中华 | 华人 | 人民 | 共和 | 国 |  
  28. --------------------------  
  29. 羽毛球拍  
  30. 羽毛 | 球拍 |  
  31. --------------------------  
  32. 人民币  
  33. 人民 | 币 |  
  34. --------------------------  
  35. 很好听  
  36. 很好 | 好听 |  
  37. --------------------------  
  38. 下一个  
  39. 下一 | 一个 |  
  40. --------------------------  
  41. 为什么  
  42. 为 | 什么 |  
  43. --------------------------  
  44. 北京首都机场  
  45. 北京 | 首都 | 机场 |  
  46. --------------------------  
  47. 东西已经拍卖了  
  48. 东西 | 已经 | 拍卖 | 了 |  
  49. --------------------------  
  50. 主人因之生气  
  51. 主人 | 因 | 之 | 生气 |  
  52. --------------------------  
  53. 虽然某些动物很凶恶  
  54. 虽然 | 某些 | 动物 | 很 | 凶恶 |  
  55. --------------------------  
  56. 朋友真背叛了你了  
  57. 朋友 | 真 | 背叛 | 了 | 你了 |  
  58. --------------------------  
  59. 建设盒蟹社会  
  60. 建设 | 盒 | 蟹 | 社会 |  
  61. --------------------------  
  62. 建设盒少蟹社会  
  63. 建设 | 盒 | 少 | 蟹 | 社会 |  
  64. --------------------------  
  65. 我们家门前的大水沟很难过。  
  66. 我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |  
  67. --------------------------  
  68. 罐头不如果汁营养丰富。  
  69. 罐头 | 不如 | 果汁 | 营养 | 丰富 |  
  70. --------------------------  
  71. 今天真热,是游泳的好日子。  
  72. 今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |  
  73. --------------------------  
  74. 妹妹的数学只考十分,真丢脸。  
  75. 妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |  
  76. --------------------------  
  77. 我做事情,都是先从容易的做起。  
  78. 我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |  
  79. --------------------------  
  80. 老师说明天每个人参加大队接力时,一定要尽力。  
  81. 老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |  
  82. --------------------------  
  83. 小明把大便当作每天早上起床第一件要做的事  
  84. 小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |   

paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来。

如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。

mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?

当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。

mmseg4j中的词库: (强制使用 UTF-8):

    • data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
    • data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这个功能是试行,如果不喜欢它,可以用空的units.dic文件(放到你的词库目录下)覆盖它。
    • data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 自带的词库。
    • data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。
    • 由于 utf-8 文件有带与不带 BOM 之分,建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

solr分词一:mmseg4j


推荐阅读
  • 在Conda环境中高效配置并安装PyTorch和TensorFlow GPU版的方法如下:首先,创建一个新的Conda环境以避免与基础环境发生冲突,例如使用 `conda create -n pytorch_gpu python=3.7` 命令。接着,激活该环境,确保所有依赖项都正确安装。此外,建议在安装过程中指定CUDA版本,以确保与GPU兼容性。通过这些步骤,可以确保PyTorch和TensorFlow GPU版的顺利安装和运行。 ... [详细]
  • 题目 E. DeadLee:思维导图与拓扑结构的深度解析问题描述:给定 n 种食物,每种食物的数量由 wi 表示。同时,有 m 位朋友,每位朋友喜欢两种特定的食物 x 和 y。目标是通过合理分配食物,使尽可能多的朋友感到满意。本文将通过思维导图和拓扑排序的方法,对这一问题进行深入分析和求解。 ... [详细]
  • 在 Axublog 1.1.0 版本的 `c_login.php` 文件中发现了一个严重的 SQL 注入漏洞。该漏洞允许攻击者通过操纵登录请求中的参数,注入恶意 SQL 代码,从而可能获取敏感信息或对数据库进行未授权操作。建议用户尽快更新到最新版本并采取相应的安全措施以防止潜在的风险。 ... [详细]
  • 在 Mac 上查看隐藏文件和文件夹的详细指南。通过终端命令,您可以轻松地显示或隐藏这些文件。具体步骤如下:输入 `defaults write com.apple.finder AppleShowAllFiles -bool true` 以显示所有隐藏文件,或使用 `defaults write com.apple.finder AppleShowAllFiles -bool false` 以重新隐藏它们。此方法适用于各种版本的 macOS,帮助用户更好地管理和访问系统文件。 ... [详细]
  • 本文详细解析了逻辑运算符“与”(&&)和“或”(||)在编程中的应用。通过具体示例,如 `[dehua@teacher~]$[$(id -u) -eq 0] && echo "You are root" || echo "You must be root"`,展示了如何利用这些运算符进行条件判断和命令执行。此外,文章还探讨了这些运算符在不同编程语言中的实现和最佳实践,帮助读者更好地理解和运用逻辑运算符。 ... [详细]
  • 二分查找算法详解与应用分析:本文深入探讨了二分查找算法的实现细节及其在实际问题中的应用。通过定义 `binary_search` 函数,详细介绍了算法的逻辑流程,包括初始化上下界、循环条件以及中间值的计算方法。此外,还讨论了该算法的时间复杂度和空间复杂度,并提供了多个应用场景示例,帮助读者更好地理解和掌握这一高效查找技术。 ... [详细]
  • 在Eclipse中提升开发效率,推荐使用Google V8插件以增强Node.js的调试体验。安装方法有两种:一是通过Eclipse Marketplace搜索并安装;二是通过“Help”菜单中的“Install New Software”,在名称栏输入“googleV8”。此插件能够显著改善调试过程中的性能和响应速度,提高开发者的生产力。 ... [详细]
  • 深入解析Java虚拟机的内存分区与管理机制
    Java虚拟机的内存分区与管理机制复杂且精细。其中,某些内存区域在虚拟机启动时即创建并持续存在,而另一些则随用户线程的生命周期动态创建和销毁。例如,每个线程都拥有一个独立的程序计数器,确保线程切换后能够准确恢复到之前的执行位置。这种设计不仅提高了多线程环境下的执行效率,还增强了系统的稳定性和可靠性。 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 深入解析Linux内核中的进程上下文切换机制
    在现代操作系统中,进程作为核心概念之一,负责管理和分配系统资源,如CPU和内存。深入了解Linux内核中的进程上下文切换机制,需要首先明确进程与程序的区别。进程是一个动态的执行流,而程序则是静态的数据和指令集合。进程上下文切换涉及保存当前进程的状态信息,并加载下一个进程的状态,以实现多任务处理。这一过程不仅影响系统的性能,还关系到资源的有效利用。通过分析Linux内核中的具体实现,可以更好地理解其背后的原理和技术细节。 ... [详细]
  • 如何在PDF文档中添加新的文本内容?
    在处理PDF文件时,有时需要向其中添加新的文本内容。这是否可以直接实现呢?有哪些简便且免费的方法可供选择?使用极速PDF阅读器打开文档后,可以通过点击左上角的“注释”按钮切换到注释模式,并选择相应的工具进行编辑。此外,还可以利用其他功能丰富的PDF编辑软件,如Adobe Acrobat DC或Foxit PhantomPDF,它们提供了更多高级的编辑选项,能够满足更复杂的需求。 ... [详细]
  • 题目要求解决一个有趣的编程挑战,即计算由四个自然数 \( p, q, r, s \) 组成的分数序列的和。具体来说,需要编写一个 C# 程序来处理这些自然数,并通过特定的数学运算得出最终结果。该任务不仅考验编程技能,还涉及对数学公式的理解和应用。 ... [详细]
  • Nginx 反向代理配置与应用指南
    本文详细介绍了 Nginx 反向代理的配置与应用方法。首先,用户可以从官方下载页面(http://nginx.org/en/download.html)获取最新稳定版 Nginx,推荐使用 1.14.2 版本。下载并解压后,通过双击 `nginx.exe` 文件启动 Nginx 服务。文章进一步探讨了反向代理的基本原理及其在实际应用场景中的配置技巧,包括负载均衡、缓存管理和安全设置等,为用户提供了一套全面的实践指南。 ... [详细]
  • POJ 2482 星空中的星星:利用线段树与扫描线算法解决
    在《POJ 2482 星空中的星星》问题中,通过运用线段树和扫描线算法,可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据,还能确保时间复杂度的最优性,适用于各种复杂的星空模拟场景。 ... [详细]
  • 本指南详细介绍了如何在CentOS 6.6 64位系统上以root用户身份部署Tomcat 8服务器。系统环境为CentOS 6.6 64位,采用源码安装方式。所需软件为apache-tomcat-8.0.23.tar.gz,建议将软件下载至/root/opt目录。具体下载地址请参见官方资源。本指南涵盖了从环境准备到服务启动的完整步骤,适用于需要在该系统环境下搭建高性能Web应用服务器的技术人员。 ... [详细]
author-avatar
萧逸
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有