热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

solr学习笔记-linux下配置solr(转)

本文地址:http:zhoujianghai.iteye.comblog1540176首先介绍一下solr:ApacheSolr(读音:SOLer)是一个开源、

本文地址:

 

http://zhoujianghai.iteye.com/blog/1540176

 

首先介绍一下solr:

Apache Solr (读音: SOLer) 是一个开源、高性能、采用Java开发、基于Lucene的全文搜索服务器,文档通过Http利用XML加到一个搜索集合中,查询该集合也是通过 http收到一个XML/JSON响应来实现。Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件(schema.xml)中使用:id进行描述。solr有两个核心文件,solrconfig.xml和schema.xml。solrconfig.xml是solr的基础文件,里面配置了各种web请求处理器、请求响应处理器、日志、缓存等;schema.xml配置映射了各种数据类型的索引方案,分词器的配置、索引文档中包含的字段也在此配置。

工作中主要用来分词和搜索,简单的工作原理是:利用分词器对数据源进行分词处理,然后根据分词结果建立索引库;查询的时候,利用分词器对查询语句进行分词,根据查询语句分词的结果在索引库中进行匹配,最后返回结果。

 

废话少说,下面开始solr之旅吧:

一.安装JDK和Tomcat

(1):安装jdk  下载jdk安装包,解压到jdk-1.x目录

(2):安装tomcat,下载tomcat安装包,解压到apache-tomcat目录下

修改tomcat安装目录下的conf目录的server.xml

找到,加入URIEncoding="UTF-8",为了支持中文。

设置Java和tomcat环境变量

 

上面两步比较简单,这里就只简单描述一下,不明白的可以网上查资料。

 

二. 安装solr

下载solr包,http://labs.renren.com/apache-mirror/lucene/solr/3.5.0/apache-solr-3.5.0.zip

 

解压缩到apache-solr目录,把apache-solr/dist目录下的apache-solr-3.5.0.war 复制到$TOMCAT_HOME/webapps目录下,重命名为solr.war

复制apache-solr/example/solr到tomcat根目录下(如果你想配置多core(实例),就复制apache-solr /example/multicore到tomcat根目录下,不用复制solr了),作为solr/home,以后也可以往该目录添加 core,每个core下面都可以有自己的配置文件。

在apache-tomcat/conf/Catalina/localhost/下创建solr.xml(跟webapps下的solr项目同名),指定solr.war和solr/home的位置,让tomcat启动时就自动加载该应用。

solr.xml内容如下:

   

然后在tomcat的bin目录下执行./startup.sh,启动tomcat

在地址栏访问http://localhost:8080/solr/

将会出现solr欢迎界面和admin入口

 

注:如果出现org.apache.solr.common.SolrException: Error loading class 'solr.VelocityResponseWriter' 异常,最简单的解决方法:找到$TOMCAT_HOME/solr/conf/solrconfig.xml,把注释掉或者enable:false即可。如果一切顺利的话,现在可以看到solr的web管理界面了。不过要想实现分词的功能,得安装一个中文分词器,这里推荐IKAnalyzer或mmseg4j。

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力,采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用。支持用户词典扩展定。

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

三. 配置中文分词器

下面分别安装这两个中文分词器,当然选择安装其中一个也是可以的。

(1)安装IKAnalyzer

下载地址: http://code.google.com/p/ik-analyzer/downloads/list

在当前目录下新建IKAnalyzer目录,解压到该目录下:unzip IKAnalyzer2012_u5.zip -d ./IKAnalyzer

把IKAnalyzer目录下的IKAnalyzer2012.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml,编辑$TOMCAT_HOME/solr/conf/schema.xml,在文件中添加下面这个fieldtype

注:下面的代码中多了很多“<span style="font-size: x-small;">”标签,这个是设置字体时iteye编辑器自己生成的。

< span  style ="font-size: x-small;" >< span  style ="font-size: x-small;" >< span  style ="font-size: small;" >< fieldType  name ="text"  class ="solr.TextField"  positionIncrementGap ="100" >
         < analyzer  type ="index" >
             < tokenizer  class  = "org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength ="false"   /> 
             < filter  class ="solr.StopFilterFactory"  ignoreCase ="true"  words ="stopwords.txt"  enablePositionIncrements ="true"   />  
             < filter  class ="solr.WordDelimiterFilterFactory"  generateWordParts ="1"  generateNumberParts ="1"  catenateWords ="1"  catenateNumbers ="1"  catenateAll ="0"  splitOnCaseChange ="1"   />                
             < filter  class ="solr.LowerCaseFilterFactory"   />  
             < filter  class ="solr.EnglishPorterFilterFactory"  protected ="protwords.txt"   />      
             < filter  class ="solr.RemoveDuplicatesTokenFilterFactory"   />  
         analyzer >
         < analyzer  type ="query" >
             < tokenizer  class  = "org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength ="true"   />  
             < filter  class ="solr.SynonymFilterFactory"  synonyms ="synonyms.txt"  ignoreCase ="true"  expand ="true"   />  
             < filter  class ="solr.StopFilterFactory"  ignoreCase ="true"  words ="stopwords.txt"   />  
             < filter  class ="solr.WordDelimiterFilterFactory"  generateWordParts ="1"  generateNumberParts ="1"  catenateWords ="0"  catenateNumbers ="0"  catenateAll ="0"  splitOnCaseChange ="1"   />  
             < filter  class ="solr.LowerCaseFilterFactory"   />  
             < filter  class ="solr.EnglishPorterFilterFactory"  protected ="protwords.txt"   />  
             < filter  class ="solr.RemoveDuplicatesTokenFilterFactory"   />  
         analyzer >
     fieldType > span > span > span >

 

添加一个索引字段field,并应用上面配置的fieldtype

 

< field  name ="game_name"  type ="text"  indexed ="true"  stored ="true"  required ="true"   />

 

然后找到这一句:text把它改成game_name

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp,就可以进行分词处理了。

IKAnalyzer添加自定义分词词典:词典文件格式为无BOM的UTF-8编码的文本文件,文件扩展名不限,一次可以添加多个词库,每个词库以";"分开。把IKAnalyzer 目录下的IKAnalyzer.cfg.xml和stopword.dic拷贝到$TOMCAT_HOME/webapps/solr/WEB_INF /classes目录下,可以自己新建一个mydic.dic文件,然后在IKAnalyzer.cfg.xml里进行配置。

(2)安装mmseg4j

 下载地址:http://code.google.com/p/mmseg4j/downloads/list

在当前目录下新建mmseg4j目录,解压到该目录下:unzip mmseg4j-1.8.5.zip -d ./mmseg4j

把mmseg4j目录下的mmseg4j-all-1.8.5.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

 

配置schema.xml,编辑$TOMCAT_HOME/solr/conf/schema.xml,在文件中添加下面这个fieldtype

 

 

< fieldtype  name ="textComplex"  class ="solr.TextField"  positionIncrementGap ="100" >
         < analyzer >
             < tokenizer  class ="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"  mode ="complex"  dicPath ="/home/zhoujh/java/apache-tomcat7/solr/dict" >
             tokenizer >
         analyzer >
     fieldtype >
     < fieldtype  name ="textMaxWord"  class ="solr.TextField"  positionIncrementGap ="100" >
         < analyzer >
             < tokenizer  class ="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"  mode ="max-word"  dicPath ="/home/zhoujh/java/apache-tomcat7/solr/dict" >
             tokenizer >
         analyzer >
     fieldtype >
     < fieldtype  name ="textSimple"  class ="solr.TextField"  positionIncrementGap ="100" >
         < analyzer >
             < tokenizer  class ="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"  mode ="simple"  dicPath ="/home/zhoujh/java/apache-tomcat7/solr/dict" >
             tokenizer >
         analyzer >
     fieldtype >

注意:dicPath的值改成你自己机器上相应的目录。

然后修改之前添加的filed,让其使用mmseg4j分词器

 

< field  name ="game_name"  type ="textComplex"  indexed ="true"  stored ="true"  required ="true"   />

 

配置mmseg4j分词词典:MMSEG4J的词库是可以动态加载的,词库的编码必须是UTF-8,mmseg4j 默认从当前目录下的 data 目录读取上面的文件,当然也可以指定别的目录,比如我就放在自定义的dict目录下。自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。如:/data/words-my.dic。

这里直接把mmseg4j/data目录下的所有.dic文件拷贝到$TOMCAT_HOME/solr/dict目录下。共有:4个dic文件,chars.dic、units.dic、 words.dic、 words-my.dic。下面简单解释一下这几个文件的作用。

1、chars.dic,是单个字,和对应的频率,一行一对,字在全面,频率在后面,中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。

2、units.dic,是单位的字,如:分、秒、年。

3、words.dic,是核心的词库文件,一行一条,不需要其它任何数据(如词长)。

4、words-my.dic,是自定义词库文件

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp,就可以看到分词效果了。

现在,这两种分词方法都已配置好了,想用哪种就把查询的filed的type设置成哪种。


推荐阅读
  • 本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文讨论了在Spring 3.1中,数据源未能自动连接到@Configuration类的错误原因,并提供了解决方法。作者发现了错误的原因,并在代码中手动定义了PersistenceAnnotationBeanPostProcessor。作者删除了该定义后,问题得到解决。此外,作者还指出了默认的PersistenceAnnotationBeanPostProcessor的注册方式,并提供了自定义该bean定义的方法。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Android开发实现的计时器功能示例
    本文分享了Android开发实现的计时器功能示例,包括效果图、布局和按钮的使用。通过使用Chronometer控件,可以实现计时器功能。该示例适用于Android平台,供开发者参考。 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • 本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式,然后详细介绍了相关API,包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List,以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较,指出了JSON的优势和缺点。 ... [详细]
  • 本文介绍了H5游戏性能优化和调试技巧,包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说,解决游戏性能问题是一个关键的任务,本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]
  • 本文提供了关于数据库设计的建议和注意事项,包括字段类型选择、命名规则、日期的加入、索引的使用、主键的选择、NULL处理、网络带宽消耗的减少、事务粒度的控制等方面的建议。同时还介绍了使用Window Functions进行数据处理的方法。通过遵循这些建议,可以提高数据库的性能和可维护性。 ... [详细]
  • 我有一个带有H2数据库的springboot应用程序。该应用程序会在启动时引导数据库,为此,我在 ... [详细]
  • Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
    一、Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer1.新建一个测试Lucene提供的分词器的maven项目LuceneAnal ... [详细]
author-avatar
开拓者企业管理培训
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有