热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

tomcat7服务器中安闲盏开源搜索引擎solr4.0+实现中文分词

2012年12月16日,solr4.0正式版发布,由于其新功能比较给力(特别是关于分布式的新特性,关联zookeeper等),所以准备替换掉老版本官网下载solr4.0:http://lucene.apache.org/solr/mmseg4j分词下载:http://code.google.com/p/mmseg4j/
 2012年12月16日,solr4.0正式版发布,由于其新功能比较给力(特别是关于分布式的新特性,关联zookeeper等),所以准备替换掉老版本
官网下载solr4.0:http://lucene.apache.org/solr/
mmseg4j分词下载:http://code.google.com/p/mmseg4j/downloads/list
词库下载:http://code.google.com/p/mmseg4j/downloads/detail?name=data.zip&can=2&q=

系统:centos 6.2(64位)
ip地址:192.168.1.124
tomcat:apache-tomcat-7.0.29
下载完成后就开始正式配置了

一.安装准备
调整系统参数
在/etc/sysctl.conf配置文件中增加如下内核参数
 
net.ipv4.tcp_tw_reuse = 1 
net.ipv4.tcp_tw_recycle = 1 
net.ipv4.tcp_fin_timeout = 5 
然后sysctl -p查看一下

附:net.ipv4.tcp_synCOOKIEs = 1参数在centos6.2中本身就有,所以我没有加,没有的可自己手动填上

二.安装及配置过程
1.安装tomcat
不做演示,详情见:http://5142926.blog.51cto.com/5132926/960900
修改tomcat配置文件/conf/server.xml
cOnnectionTimeout="20000" 
URIEncoding="UTF-8" /> 
附:即填上utp-8防止中文乱码
2.安装配置solr
(1).解压下载的apache-solr-4.0.0,在他的dist目录下有个文件叫做apache-solr-4.0.0.war,将这个文件拷贝到tomcat的webapps/目录下,并重命名为solr.war
(2).新建/opt/solr-tomcat/solr文件夹,把下载的solr包中的example/solr文件夹下面的所有文件放入到 /opt/solr-tomcat/solr里面
(3).1) 最后一步 配置添加solr.home环境变量,可以有二种方式(两种取其一即可):
a)基于环境变量
 linux在当前用户的环境变量中(.bash_profile)或在./bin/catalina.sh中添加如下环境变量:
export JAVA_OPTS="$JAVA_OPTS -Dsolr.solr.home=/opt/solr-tomcat/solr" 
b)基于JNDI
  在tomcat的conf文件夹建立Catalina文件夹,然后在Catalina文件夹中在建立localhost文件夹,在该文件夹下面建立 solr.xml,Xml:
   
    
  
附:以上路径都要相互对应
(4).验证安装
访问http:192.168.1.124:8093/solr


附:tomcat默认端口8080,当然我这里改成了8093,大家注意一下

三.中文分词配置
1.将下载到的mmseg4j-1.9.0.v20120712-SNAPSHOT.zip解压,将其目录下的mmseg4j-all-1.9.0.v20120712-SNAPSHOT.jar拷贝到tomcat中webapps/solr/WEB-INF/lib中
2.在/opt/solr-tomcat/solr目录下新建dic文件夹,将解压后的data目录下的words.dic拷贝到/opt/solr-tomcat/solr/dic目录下
3.更改schema.xml(/opt/solr-tomcat/solr/collection1/conf)文件,使分词器起到作用
 
 
 …… 
     
          
               
                  
                  
           
   
          
        
           
               
               
        
   
        
        
          
              
              
       
   
      
     …… 
 
 
 
    …… 
   
   
 
    …… 
 
 
 
附:dicPath="/opt/solr-tomcat/solr/dic"是你自己的词库路径

4.重启tomcat
访问http:192.168.1.124:8093/solr
点击下方的collection1,其中有个analysis,点击,如下图

在Field Value (Index)中随便输入几行汉字,类型选择complex进行解析

至此,完工,关联分布式还在探索ing,后续......

推荐阅读
  • 从理想主义者的内心深处萌发的技术信仰,推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]
  • Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统,支持高吞吐量的发布和订阅功能,主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程,为程序员提供详尽的操作指南,涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]
  • Jupyter Notebook多语言环境搭建指南
    本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境,包括必要的软件安装和配置步骤。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • 本文介绍了如何在Linux系统中将命令添加到PATH环境变量中,以便在任何位置都能直接运行这些命令。PATH是一个包含多个目录路径的字符串变量,当输入不带路径的命令时,系统会在这些路径中查找并执行相应的命令。 ... [详细]
  • Centos7 Tomcat9 安装笔记
    centos7,tom ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 华为捐赠欧拉操作系统,承诺不推商用版
    华为近日宣布将欧拉开源操作系统捐赠给开放原子开源基金会,并承诺不会推出欧拉的商用发行版。此举旨在推动欧拉和鸿蒙操作系统的全场景融合与生态发展。 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 在CentOS系统中部署与配置ZooKeeper详解 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • MongoDB核心概念详解
    本文介绍了NoSQL数据库的概念及其应用场景,重点解析了MongoDB的基本特性、数据结构以及常用操作。MongoDB是一个高性能、高可用且易于扩展的文档数据库系统。 ... [详细]
author-avatar
手机用户2502939795
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有