热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Solr与mmseg4J的整合

Solr与mmseg4j部署一.solr安装1.下载solrhttp:www.apache.orgdyncloser.cgilu

Solr与mmseg4j部署

 

一. solr安装

1. 下载solr

    http://www.apache.org/dyn/closer.cgi/lucene/solr/

2. apache-solr-1.4.1.zip解压,复制dist/apache-solr-1.4.1.war到TOMCAT_HOME/webapps下,改名为solr.war,启动tomcat;

3. 在控制台看到启动完毕关闭tomcat,有报错不用管;

4. 进入TOMCAT根目录,创建文件夹solr_home, 将apache-solr-1.4.1\example\solr下的conf、data、bin三个文件夹复制到solr_home下;

5. 进入webapps/solr/WEB-INF,打开web.xml,第37行,注释打开,修改如下:

 

Xml代码   收藏代码
  1. <env-entry>  
  2.     <env-entry-name>solr/homeenv-entry-name>  
  3.     <env-entry-value>../solr_homeenv-entry-value>  
  4.     <env-entry-type>java.lang.Stringenv-entry-type>  
  5. env-entry>  

6. 此时再启动tomcat,访问http://localhost:8080/solr,solr安装完毕。

 

 

二. mmseg4j安装

1. 下载mmseg4j

    http://code.google.com/p/mmseg4j/downloads/list

2. 解压mmseg4j-1.8.4.zip,复制mmseg4j-all-1.8.4.jar到TOMCAT_HOME/webapps/solr/WEB-INF/lib下;

3. 进入TOMCAT_HOME/solr_home/conf,打开schema.xml, 在之间加入:(我加在了399行左右)

 

Xml代码   收藏代码
  1. <fieldType name="textComplex" class="solr.TextField" >  
  2.     <analyzer>  
  3.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="data/"/>  
  4.     analyzer>  
  5. fieldType>  
  6. <fieldType name="textMaxWord" class="solr.TextField" >  
  7.     <analyzer>  
  8.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="data/"/>  
  9.     analyzer>  
  10. fieldType>  
  11. <fieldType name="textSimple" class="solr.TextField" >  
  12.     <analyzer>  
  13.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="data/"/>  
  14.     analyzer>  
  15. fieldType>  

4. 将mmseg4j-all-1.8.4-with-dic.war解压在一个临时文件夹中,然后将data文件夹内的chars.dic、units.dic、words.dic三个字典文件复制到TOMCAT_HOME/solr_home/data中;

5. 启动tomcat,访问http://localhost:8080/solr/admin/analysis.jsp,选择Field下拉选项中的type,后面输入textComplex,然后在Field value中随便复制一段中文文字,点击Analyz,就可以看到mmseg4j的分词结果了。


推荐阅读
author-avatar
痛彻心扉哥哥_742
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有