最近公司招新人,有两位应届硕士生同学过来面试。一看简历上,都有solr的开发经验。于是想,“这没整过啊!我怎么面呢?”于是,自己找资料,进行了一段时间的学习!总算是有个学习成果吧!现写下这一系列文章进行记录。也帮助刚学习solr的同学进行学习。

一、什么是solr?

    Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。

    1.1、什么是lucene?

    Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta(雅加达) 家族中的一个开源项目。也是目前最为流行的基于Java开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene ,比如Eclipse 帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引,所以你只要把你要索引的数据格式转化的文本格式,Lucene 就能对你的文档进行索引和搜索。

    1.2、lucene和solr是什么关系?

    Solr与Lucene 并不是竞争对立关系,恰恰相反Solr 依存于Lucene,因为Solr底层的核心技术是使用Lucene 来实现的,Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理,而Solr负责。所以说,一句话概括 Solr: Solr是Lucene面向企业搜索应用的扩展。

    Solr使用Lucene并且扩展了它!

  •  

    • 一个真正的拥有动态字段(Dynamic Field)和唯一键(Unique Key)的数据模式(Data Schema)

    • 对Lucene查询语言的强大扩展!

    • 支持对结果进行动态的分组和过滤

    • 高级的,可配置的文本分析

    • 高度可配置和可扩展的缓存机制

    • 性能优化

    • 支持通过XML进行外部配置

    • 拥有一个管理界面

    • 可监控的日志

    • 支持高速增量式更新(Fast incremental Updates)和快照发布(Snapshot Distribution)

    因为solr是基于Lucene的,他们底层的概念都是一样的。读者如果初学solr,对lucene不了解的话,可以先大概了解一下lucene。以下有两篇很好的关于lucene的介绍文章:

    http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/#ibm-pcon

    http://www.ibm.com/developerworks/cn/java/wa-lucene/

    为了对文档进行索引,Lucene 提供了五个基础的类,他们分别是 Document, Field, IndexWriter, Analyzer, Directory。读完以上两篇文章,读者应该了解这些基础类有什么作用。

二、solr的安装:

2.1、下载工具

    Solr 必须运行在Java1.6 或更高版本的Java 虚拟机中,运行标准Solr 服务只需要安装JRE 即可,但如果需要扩展功能或编译源码则需要下载JDK 来完成。笔者用的是JDK1.6

    solr需要运行在servlet服务器上,笔者用的是tomcat。版本的话,根据自己情况去选择。笔者用的是6.0.37版本。

    如果读者打算下载源码进行自行编译的话,同时还需要下载Ant。但是需要注意的是,笔者写本文时,最新版本的solr是4.10.2。但是运行ant进行编译时,会提示jdk支持的最低版本是1.7,可是笔者不愿意换jdk于是一直降低版本到4.7.2才发现只是1.6的jdk。

    wKioL1RdvjnBMWoOAAGUFC-NEAQ851.jpg

    于是需要下载的工具如下:

  •     JRE或JDK(1.6版本以上):http://java.sun.com/j2se/downloads.html

  •     Ant 1.6.x 或更高版本  

  •     tomcat  :http://tomcat.apache.org/

  •     solr:http://www.apache.org/dyn/closer.cgi/lucene/solr/

2.2、配置Ant

    Solr是使用Ant进行管理的源码, Ant是一种基于Java的build工具。理论上来说,它有些类似于Maven 或者是 C中的make。下载后解压出来后,进行环境变量设置。

    ANT_HOME:C:\apache-ant-1.9.4-bin (这里为你自己解压缩的目录)

    PATH:%ANT_HOME%\bin (这个设置是为了方便在dos环境下操作)

    查看是否安装成功,在命令行窗口中输入命令ant,若出现结果:



    说明ant安装成功!因为ant默认运行build.xml文件,这个文件需要我们建立。现在就可以进行build Solr源码了。在命令行窗口中进入到你的Solr源码目录,输入ant会出现当前build.xml使用提示信息。

    wKioL1RdwJ7xhW9rAAIbRH-cMm4443.jpg

    当然,如果读者自己的IDE已经有了Ant的话,可以在IDE里自己build。

2.3、配置solr

    2.3.1、目录结构介绍

    下载solr后,解压压缩包。解压到F:\solr\solr-4.7.2。解压之后的目录结构如下:

wKiom1RdwqOjOt8TAAE9Ir34N50145.jpg

    contrib目录里都是相关扩展所需要的jar包;

    dist也是相关jar包,但是最主要的文件是:solr的war包(solr-4.7.2.war);

    docs是solr的相关介绍文档(index.html包含了所有该版本已包含功能的介绍,而tutorial.html对solr的运行过程进行了介绍);

    example是非常重要的一个目录,它包含了相关示例程序:

        \example-DIH    ---数据库做索引数据源的示例;

        \exampledocs    ---所有示例用的xml文件,作为索引数据源;

        \multicore          ---实现多core的示例;

        \solr                  ---一个非常完整的基础示例;

    licenses目录里保存了相关证书文件。

    2.3.2、Tomcat下Solr安装配置
    A、Tomcat 配置文件conf\server.xml

    添加编码的配置 URIEncoding="UTF-8" (如不添加,中文检索时因为乱码搜索不到)。
    添加后为:
               redirectPort="8443" URIEncoding="UTF-8" />

    B、复制solr.war文件

    复制F:\solr\solr-4.7.2\dist\solr-4.7.2.war到tomcat的webapps目录下(笔者的目录为E:\apache-tomcat-6.0.37\webapps),并改名为solr.war。解压。

    C、建立主目录

    根据自己情况,在磁盘上创建一个solr的主目录。笔者创建在E:\solr-tomcat\solr,把F:\solr\solr-4.7.2\example\solr复制到该主目录下。

    Solr的安装配置最为麻烦的是对solr.solr.home(主目录)的理解和配置,主要有3种:

    基于环境变量solr.solr.home
    在当前用户的环境变量中添加如下环境变量
        Dsolr.solr.home=E:\solr-tomcat\solr
    基于JNDI配置
    在tomcat的E:\apache-tomcat-6.0.37\conf\Catalina\localhost目录下创建solr.xml ,内容如下:


    修改solr工程的web.xml文件

    修改E:\apache-tomcat-6.0.37\webapps\solr\WEB-INF\web.xml文件:

solr/homeE:\solr-tomcat\solrjava.lang.String

     这样,solr的基本配置都OK了。运行tomcat,在浏览器输入http://localhost:8080/solr即可访问solr的管理页面。

wKiom1Rdy4eSotMOAATQUYYvKso603.jpg

 

    下一篇博文,笔者将介绍solr的基本使用以及solr多core的配置。