当前位置: 开发笔记 > 编程语言 > 正文

Solr4.10.1+tomcat7+zookeeper+HDFS集成（SolrCloud+HDFS）配置

作者：小龙2602902913 | 来源：互联网 | 2023-05-19 14:51

关于搭建solrCloud+zookeeper+HDFS的实践经验搭建zookeeper：1、到zookeeper官网下载zookeeper（用于管理s

关于搭建solrCloud + zookeeper +HDFS的实践经验

搭建zookeeper：

1、到zookeeper官网下载zookeeper（用于管理solrcloud云的配置文件）http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/

2、准备三台服务器,或者搭建3台虚拟机: 例如：host3.com 192.168.2.87

Host5.com 192.168.2.89

Host4.com 192.168.2.94

3、上传zookeeper-3.4.6.tar.gz到任意一台服务器/usr/local/目录，并解压到当前目录：zookeeper： tar –zxvf zookeeper-3.4.6.tar.gz 改名：zookeeper-3.4.6为 zookeeper：mv zookeeper-3.4.6 zookeeper

4、在zookeeper目录下建立data和 logs目录，同时将zookeeper目录下conf/zoo_simple.cfg文件复制一份成 zoo.cfg

5、修改zoo.cfg

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can passbetween

# sending a request and getting anacknowledgement

syncLimit=5

# the directory where the snapshot isstored.

# do not use /tmp for storage, /tmp hereis just

# example sakes.

dataDir=/usr/local/zookeeper/data  

# the port at which the clients willconnect

clientPort=2181

# the maximum number of clientconnections.

# increase this if you need to handle moreclients

#maxClientCnxns=60

#

# Be sure to read the maintenance sectionof the

# administrator guide before turning onautopurge.

#

#http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

#

# The number of snapshots to retain indataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable autopurge feature

#autopurge.purgeInterval=1

dataLogDir=/usr/local/zookeeper/logs

server.1=192.168.2.89:2888:3888

server.2=192.168.3.87:2888:3888

server.3=192.168.3.94:2888:3888

6、拷贝zookeeper目录到另外两台服务器：

scp-r /usr/local/zookeeper root@192.168.2.87:/usr/local/

scp–r /usr/local/zookeeper root@192.168.2.89:/usr/local/

分别在几台服务器的data目录下建立myid 其 ip对应相应的server.* server.1 的myid内容为1 server.2的myid内容为2 server.3的myid为 3

7、启动ZooKeeper集群，在每个节点上分别启动ZooKeeper服务：

cd/usr/local/zookeeper/
bin/zkServer.sh start

8、 可以查看ZooKeeper集群的状态，保证集群启动没有问题：分别查看每台服务器的zookeeper状态 zookeeper#bin/zkServer.shstatus查看那些是following那个是leader

Eg:

[root@host4zookeeper-3.3.6]# bin/zkServer.sh status

JMXenabled by default

Usingconfig: /home/hadoop/zookeeper-3.3.6/bin/../conf/zoo.cfg

Mode:follower

[root@host5/]# cd /home/hadoop/zookeeper-3.3.6/

[root@host5zookeeper-3.3.6]# bin/zkServer.sh status

JMXenabled by default

Usingconfig: /home/hadoop/zookeeper-3.3.6/bin/../conf/zoo.cfg

Mode:leader

 

[root@host3multicore]# cd /home/hadoop/zookeeper-3.3.6/

[root@host3zookeeper-3.3.6]# bin/zkServer.sh status

JMXenabled by default

Usingconfig: /home/hadoop/zookeeper-3.3.6/bin/../conf/zoo.cfg

Mode:follower

建立SolrCloud：

1、到Apache官网下载solr安装文件 solr-4.10.1.tgz http://mirror.bit.edu.cn/apache/lucene/solr/4.10.1/ 并解压tar –xvzf solr-4.10.1.tgz 更改solr-4.10.1目录：mv solr-4.10.1 solr

2、创建在根目录下创建目录mkdir –p /data0/solrcloud 将solr目录移动到data0下，那么data0下包含两个目录{solr、solrcloud}

3、将/data0/solr/example/webapps/solr.war放到tomcat的webapps目录下，启动tomcat，这是tomcat下多出solr目录

4、将/data0/solr/example/lib/ext/下的所有的jar文件复制到tomcat/webapps/solr/WEB-INF/lib/下，建立mkdir –p /data0/solrcloud/{multicore，solr-lib}目录，在将tomcat/webapps/solr/WEB-INF/lib/* 复制一份到solr-lib/下

cp /usr/local/tomcat/webapps/solr/WEB-INF/lib/* /data0/solrcloud/solr-lib/

5、在建立一个装在配置文件的目录

mkdir–p  /data0/solrcloud/multicore/collection/{conf,data}

同时将 /data0/solr/ example/solr/collection1/conf/*

复制到/data0/solrcloud/multicore/collection/conf目录下

将example/solr/multicore下的solr.xml和zoo.cfg复制到/data0/solrcloud/multicore目录下 eg：

Collection目录：

Data-config.xml文件是数据导入的配置文件查看：

http://blog.csdn.net/john_hongming/article/details/40181451

需要自己建立的 solrcore.properties文件

文件内容：

solr.shard.data.dir=/data0/solrcloud/multicore/collection/data

说明：属性solr.shard.data.dir在solrconfig.xml文件中被引用过，指定索引数据的存放位置。

Solr.xml文件的说明：

6、通过zookeeper管理配置文件：

#zookeeper上传配置文件 #

java-classpath .:/data0/solrcloud/solr-lib/* org.apache.solr.cloud.ZkCLI -cmdupconfig -zkhost host3.com:2181,host4.com:2181,host5.com:2181 -confdir/data0/solrcloud/multicore/collection/conf -confname myconf

#zookeeper连接多个节点#

java-classpath .:/data0/solrcloud/solr-lib/* org.apache.solr.cloud.ZkCLI -cmdlinkconfig -collection collection1 -confname myconf -zkhosthost3.com:2181,host4.com:2181,host5.com:2181

7、在启动文件tomcat/bin/Catalina.sh中添加如下配置：

#配置tomcat/bin/catlina.sh下的启动参数#

JAVA_OPTS="-server -Xmx2048m-Xms1024m -verbose:gc  -Xloggc:solr_gc.log -Dsolr.solr.home=/data0/solrcloud/multicore 

-DzkHost=host3.com:2181,host4.com:2181,host5.com:2181"

8、修改tomcat/webapps/solr/WEB-INF/web.xml

context.xml




    
    WEB-INF/web.xml

web.xml


       solr/home
       /data0/solrcloud/multicore
       java.lang.String

       solr/home
       /data0/solrcloud/multicore
       java.lang.String

9、 Solrcloud的IK分词器的配置：

首先在solrcloud中的multicore/collection/下建立lib目录，将IK分词器的配置文件最主要的就是IKAnalyzer.cfg.xml和 stopword.dic移动到lib下

之后修改multicore/collection/conf下的schema.xml文件

添加：

name="ikanalyzer"class="solr.TextField">

type="index"isMaxWordLength="false"class="org.wltea.analyzer.lucene.IKAnalyzer"/>

type="query"isMaxWordLength="true"class="org.wltea.analyzer.lucene.IKAnalyzer"/>

type="multiterm">

class="solr.KeywordTokenizerFactory"/>

Field会根据type的属性进行分词

至此，IKAnalyzer中文分词基本添加完成，更新下zookeeper的solr配置：

java -classpath .:/usr/local/solrcloud/solr-lib/*org.apache.solr.cloud.ZkCLI -cmd upconfig -zkhost 192.168.3.119:2181,192.168.3.111:2181,192.168.3.127:2181 -confdir/usr/local/solrcloud/multicore/collection/conf -confname myconf

如果要添加扩展词典：

在tomcat/webapps/solr/WEB-INF/下建立classes目录将要添加的词典和配置文件都放在该目录下

编辑IKAnalyzer.cfg.xml 添加词典

如下图：

10、将配置好的data0目录 scp到另外两个服务器：

scp –r /data0 root@192.168.2.89:/

scp –r /data0root@192.168.2.87:/

 

scp –r /usr/local/tomcat root@192.168.2.89:/usr/local/

scp –r /usr/local/tomcat root@192.168.2.87:/usr/local/

启动三台服务器bin/startup.sh start

11、创建collection和shard

#创建collection分3片一个副本集#

#创建三个分片，每个分片一个副本集#

curl 'http://192.168.2.89:8080/solr/admin/collections?action=CREATE&name=mycollection&numShards=3&replicatiOnFactor=1'

#创建shard的副本在89创建shard1的副本集mycollection_shard1_replica_2#

curl'http://192.168.2.89:8080/solr/admin/cores?action=CREATE&collection=mycollection&name=mycollection_shard1_replica_2&shard=shard1'

curl'http://192.168.2.87:8080/solr/admin/cores?action=CREATE&collection=mycollection&name=mycollection_shard1_replica_3&shard=shard1'

curl'http://192.168.2.89:8080/solr/admin/cores?action=CREATE&collection=mycollection&name=mycollection_shard2_replica_2&shard=shard2'

curl'http://192.168.2.87:8080/solr/admin/cores?action=CREATE&collection=mycollection&name=mycollection_shard2_replica_3&shard=shard2'

#对shard1再次在94上shard #

curl'http://192.168.2.94:8080/solr/admin/collections?action=SPLITSHARD&collection=mycollection&shard=shard1'

1、编辑/usr/local/tomcat/bin/catlina.sh 添加红色部分

JAVA_OPTS="-server-Xmx2048m -Xms1024m -verbose:gc -Xloggc:solr_gc.log -XX:MaxDirectMemorySize=1g -Dsolr.directoryFactory=HdfsDirectoryFactory-Dsolr.lock.type=hdfs -Dsolr.hdfs.home=hdfs://host1xyz.com:9000/solr -Dsolr.solr.home=/data0/solrcloud/multicore-DzkHost=host3.com:2181,host4.com:2181,host5.com:2181"

2、修改/data0/solrcloud/multicore/collection/conf/solrconfig.xml文件

添加这部分：

   hdfs://host1xyz.com:9000/solr

   true   1   true   16384   true   true   true   16   192    /home/hadoop/hadoop-2.2.0/etc/hadoop

再找到

${solr.lock.type:native}将其修改为${solr.lock.type:hdfs}

注意：这时${solr.data.dir:}是这种状态，如果添加路径，就会覆盖掉hdfs的路径

参考：

https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS

http://shiyanjun.cn/archives/100.html

http://blog.csdn.net/shirdrn/article/details/9770829

http://blog.csdn.net/john_hongming/article/details/40113641

http://blog.csdn.net/john_hongming/article/details/40080947

推荐阅读

服务器
音视频服务Java Web服务器部署详解与验证流程

本文详细介绍了如何在Java Web服务器上部署音视频服务，并提供了完整的验证流程。以AnyChat为例，这是一款跨平台的音视频解决方案，广泛应用于需要实时音视频交互的项目中。通过具体的部署步骤和测试方法，确保了音视频服务的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-06 14:45:13
case
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
controller
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
process
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
process
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
ascii
在CentOS系统中部署与配置ZooKeeper详解

在CentOS系统中部署与配置ZooKeeper详解 ... [详细]

蜡笔小新 2024-11-06 19:44:56
filter
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
js
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
js
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
uri
PHP 行为日志记录详解

本文详细介绍了如何在PHP中记录和管理行为日志，包括ThinkPHP框架中的日志记录方法、日志的用途、实现原理以及相关配置。 ... [详细]

蜡笔小新 2024-11-14 09:55:11
search
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
search
XAMPP 遇到 404 错误：无法找到请求的对象

在使用 XAMPP 时遇到 404 错误，表示请求的对象未找到。通过详细分析发现，该问题可能由以下原因引起：1. `httpd-vhosts.conf` 文件中的配置路径错误；2. `public` 目录下缺少 `.htaccess` 文件。建议检查并修正这些配置，以确保服务器能够正确识别和访问所需的文件路径。 ... [详细]

蜡笔小新 2024-11-11 18:20:00
list
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
config
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
stream
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51

小龙2602902913

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章