SolrCloud的搭建、使用

作者：三八依依2010 | 来源：互联网 | 2023-09-06 17:09

日萌社人工智能AI：KerasPyTorchMXNetTensorFlowPaddlePaddle深度学习实战（不定时更新）搜索引擎&#

日萌社

人工智能AI&＃xff1a;Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战&＃xff08;不定时更新&＃xff09;

搜索引擎&＃xff1a;Elasticsearch、Solr、Lucene

ELK中的ES&＃xff1a;Elasticsearch
SolrCloud 的搭建、使用
Solr 高亮显示
Spring Data Solr 使用
Solr的安装与配置
Solr 原理、API 使用
Lucene 原理、API使用
Lucene 得分算法

1.SolrCloud(solr 云)是 Solr 提供的分布式搜索方案&＃xff0c;当你需要大规模、容错、分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用 SolrCloud的&＃xff0c;当索引量很大&＃xff0c;搜索请求并发很高&＃xff0c;这时需要使用 SolrCloud 来满足这些需求。SolrCloud 是基于 Solr 和Zookeeper的分布式搜索方案&＃xff0c;它的主要思想是使用 Zookeeper作为集群的配置信息中心。它有几个特色功能&＃xff1a;1.集中式的配置信息2.自动容错3.近实时搜索4.查询时自动负载均衡2.SolrCloud系统架构

1.物理结构&＃xff1a;三个 Solr 实例&＃xff08; 每个实例包括两个 Core&＃xff09;&＃xff0c;组成一个 SolrCloud。2.逻辑结构索引集合包括两个 Shard&＃xff08;shard1 和 shard2&＃xff09;&＃xff0c;shard1 和 shard2 分别由三个 Core 组成&＃xff0c;其中一个 Leader 两个 Replication&＃xff0c;Leader 是由 zookeeper 选举产生&＃xff0c;zookeeper 控制每个shard上三个 Core 的索引数据一致&＃xff0c;解决高可用问题。用户发起索引请求分别从 shard1 和 shard2 上获取&＃xff0c;解决高并发问题。1.Collection Collection 在 SolrCloud 集群中是一个逻辑意义上的完整的索引结构。它常常被划分为一个或多个 Shard&＃xff08;分片&＃xff09;&＃xff0c;它们使用相同的配置信息。比如&＃xff1a;针对商品信息搜索可以创建一个 collection。collection&＃61;shard1&＃43;shard2&＃43;....&＃43;shardX2.Core 每个 Core 是 Solr 中一个独立运行单位&＃xff0c;提供索引和搜索服务。一个 shard 需要由一个Core 或多个 Core 组成。由于 collection 由多个 shard 组成所以 collection 一般由多个 core 组成。3.Master 或 SlaveMaster 是 master-slave 结构中的主结点&＃xff08;通常说主服务器&＃xff09;&＃xff0c;Slave 是 master-slave 结构中的从结点&＃xff08;通常说从服务器或备服务器&＃xff09;。同一个 Shard 下 master 和 slave 存储的数据是一致的&＃xff0c;这是为了达到高可用目的。4.ShardCollection 的逻辑分片。每个 Shard 被化成一个或者多个 replication&＃xff0c;通过选举确定哪个是 Leader。

1.分片的目的&＃xff1a;可以进行拓容。比如一个分片对应一个2个G的core&＃xff0c;那么增加一个分片&＃xff0c;可以对应多的一个2个G的core 2.core&＃xff1a;一个core代表Solr中的一个数据库“collection1” 3.Master 是 master-slave 结构中的主节点(主服务器)&＃xff0c;Slave 是 master-slave 结构中的从节点(从服务器)。在同一个分片(Shard) 下 master主节点和 slave从节点存储的数据是相同的&＃xff0c;这是为了达到高可用性。

搭建SolrCloud

1.搭建要求&＃xff1a;Zookeeper 作为集群的管理工具1.集群管理&＃xff1a;容错、负载均衡。2.配置文件的集中管理3.集群的入口&＃xff1a;需要实现 zookeeper 高可用&＃xff0c;需要搭建zookeeper集群。建议是奇数节点。需要三个 zookeeper 服务器。搭建 solr 集群需要 7 台服务器&＃xff08;搭建伪分布式&＃xff0c;建议虚拟机的内存 1G 以上&＃xff09;&＃xff1a;需要三个 zookeeper 节点需要四个 tomcat 节点 2.环境准备CentOS-6.5-i386-bin-DVD1.isojdk-7u72-linux-i586.tar.gzapache-tomcat-7.0.47.tar.gzzookeeper-3.4.6.tar.gzsolr-4.10.3.tgz3.步骤&＃xff1a;1.搭建Zookeeper集群&＃xff08;我们在上一小节已经完成&＃xff09;2.将已经部署完solr 的tomcat的上传到linux3.在linux中创建文件夹 /usr/local/solr-cloud 创建4个tomcat实例

启动集群

1.启动每个 tomcat 实例。要保证 zookeeper 集群是启动状态。如果你想让某个文件夹下都可以执行&＃xff0c;使用以下命令实现&＃xff1a;chmod -R 777 solr-cloud 2.访问集群&＃xff1a;地址栏输入 192.168.25.140:8180/solr 或 192.168.25.140:8280/solr都可以看到Solr集群版的界面&＃xff0c;下图表示的是&＃xff0c;一个主节点 &＃xff0c;三个从节点。

SpringDataSolr连接SolrCloud

在SolrJ中提供一个叫做CloudSolrServer的类&＃xff0c;它是SolrServer的子类&＃xff0c;用于连接solrCloud。它的构造参数就是zookeeper的地址列表&＃xff0c;另外它要求要指定defaultCollection属性&＃xff08;默认的 collection名称&＃xff09;。我们现在修改springDataSolrDemo工程的配置文件 &＃xff0c;把原来的solr-server注销&＃xff0c;替换为CloudSolrServer。指定构造参数为地址列表&＃xff0c;设置默认 collection名称。

集群分片设置

创建新的 Collection 进行分片处理。在浏览器输入以下地址&＃xff0c;可以按照我们的要求创建新的Collection&＃xff1a; http://192.168.25.140:8180/solr/admin/collections?action&＃61;CREATE&name&＃61;collection2&numShards&＃61;2&replicationFactor&＃61;2参数&＃xff1a;action&＃61;CREATE&＃xff1a;表示创建新的 Collection集合name&＃61;collection2&＃xff1a;表示创建新的 Collection集合的名字是collection2numShards&＃61;2&＃xff1a;代表的是SolrCloud的逻辑结构。表示创建的shard逻辑分片数为2。 replicationFactor&＃61;2&＃xff1a;代表的是SolrCloud的物理结构。表示创建的shard逻辑分片数的备份数为2&＃xff0c;那么其中一个为主&＃xff0c;另外一个为备。

搭建Solr集群&＃xff1a;SolrCloud

1.搭建 zookeeper 集群&＃xff1a;建议是奇数节点&＃xff0c;则至少需要三个 zookeeper 服务器。 2.搭建 solr 集群&＃xff1a;此处搭建伪集群&＃xff0c;都在同一台虚拟机上&＃xff0c;首先开启四个 tomcat。环境准备&＃xff1a;apache-tomcat-7.0.47.tar.gz 和 solr-4.10.3.tgz3.mkdir /usr/local/solr-cloud 4./root/apache-tomcat-7.0.52/webapps/ 目录下已部署好 solr-4.10.3工程&＃xff0c;那么把tomcat拷贝4份&＃xff1a;cp -r apache-tomcat-7.0.52 /usr/local/solr-cloud/tomcat-1cp -r apache-tomcat-7.0.52 /usr/local/solr-cloud/tomcat-2cp -r apache-tomcat-7.0.52 /usr/local/solr-cloud/tomcat-3cp -r apache-tomcat-7.0.52 /usr/local/solr-cloud/tomcat-45.mkdir /usr/local/solrhomes 6./root 目录下配置好 solrhome&＃xff0c;然后把 solrhome文件夹拷贝4份&＃xff1a;cp -r solrhome /usr/local/solrhomes/solrhome-1cp -r solrhome /usr/local/solrhomes/solrhome-2cp -r solrhome /usr/local/solrhomes/solrhome-3cp -r solrhome /usr/local/solrhomes/solrhome-47.修改solrhome的绝对路径&＃xff1a;1./usr/local/solr-cloud/tomcat-1/webapps/solr-4.10.3/WEB-INF/web.xml&＃xff1a;修改 /usr/local/solrhomes/solrhome-12./usr/local/solr-cloud/tomcat-2/webapps/solr-4.10.3/WEB-INF/web.xml&＃xff1a;修改 /usr/local/solrhomes/solrhome-23./usr/local/solr-cloud/tomcat-3/webapps/solr-4.10.3/WEB-INF/web.xml&＃xff1a;修改 /usr/local/solrhomes/solrhome-34./usr/local/solr-cloud/tomcat-4/webapps/solr-4.10.3/WEB-INF/web.xml&＃xff1a;修改 /usr/local/solrhomes/solrhome-48.修改每个tomcat/conf/server.xml下的三个端口&＃xff1a;1.&＃xff1a;用来关闭TOMCAT服务的端口。　　2.&＃xff1a;负责建立HTTP连接。在通过浏览器访问Tomcat服务器的Web应用时&＃xff0c;使用的就是这个连接器。3.&＃xff1a;负责和其他的HTTP服务器建立连接。在把Tomcat与其他HTTP服务器集成时&＃xff0c;就需要用到这个连接器。4./usr/local/solr-cloud/tomcat-1/conf/server.xml&＃xff1a; 5./usr/local/solr-cloud/tomcat-2/conf/server.xml&＃xff1a; 6./usr/local/solr-cloud/tomcat-3/conf/server.xml&＃xff1a; 7./usr/local/solr-cloud/tomcat-4/conf/server.xml&＃xff1a; 9.修改每个tomcat/bin/catalina.sh&＃xff1a;1.目的&＃xff1a;让每个Tomcat找到zookeeper集群中的每个zookeeper2.catalina.sh中配置位置&＃xff1a;把此配置修改到第234行3.catalina.sh中修改的配置内容的格式&＃xff1a;JAVA_OPTS&＃61;"-DzkHost&＃61;zookeeperIP:端口"4.catalina.sh中修改的配置内容&＃xff1a;JAVA_OPTS&＃61;"-DzkHost&＃61;192.168.25.128:2181,192.168.25.128:2182,192.168.25.128:2183"5.JAVA_OPTS&＃xff1a;用来设置JVM相关运行参数的变量&＃xff0c;此配置用于在tomcat启动时找到 zookeeper集群中的任意一个zookeeper6.此处zookeeper集群所在的虚拟机&＃xff1a;192.168.25.1287.此处每个Tomcat所在的虚拟机&＃xff1a;192.168.25.1338./usr/local/solr-cloud/tomcat-1/bin/catalina.sh&＃xff1a;JAVA_OPTS&＃61;"-DzkHost&＃61;192.168.25.128:2181,192.168.25.128:2182,192.168.25.128:2183"9./usr/local/solr-cloud/tomcat-2/bin/catalina.sh&＃xff1a;JAVA_OPTS&＃61;"-DzkHost&＃61;192.168.25.128:2181,192.168.25.128:2182,192.168.25.128:2183"10./usr/local/solr-cloud/tomcat-3/bin/catalina.sh&＃xff1a;JAVA_OPTS&＃61;"-DzkHost&＃61;192.168.25.128:2181,192.168.25.128:2182,192.168.25.128:2183" 44./usr/local/solr-cloud/tomcat-4/bin/catalina.sh&＃xff1a;JAVA_OPTS&＃61;"-DzkHost&＃61;192.168.25.128:2181,192.168.25.128:2182,192.168.25.128:2183"10.每个solrhome目录下的solr.xml文件中配置tomcat的IP和端口&＃xff0c;用于solr和tomcat连接&＃xff1a;目的&＃xff1a;solr集群中的每个solr关联一个tomcat。1./usr/local/solrhomes/solrhome-1/solr.xml192.168.25.13381802./usr/local/solrhomes/solrhome-2/solr.xml192.168.25.13382803./usr/local/solrhomes/solrhome-3/solr.xml192.168.25.13383804./usr/local/solrhomes/solrhome-4/solr.xml192.168.25.1338480注意&＃xff1a;每个solrhome目录下的solr.xml文件中还配置有${hostContext:solr}&＃xff0c;表示访问的主机上下文的名称是solr&＃xff0c;那么便要求tomcat/webapps目录下的solr项目名(文件夹名)必须是solr。那么项目访问的solr服务器的地址便实际是192.168.25.133:8180/solr/collection1&＃xff0c;默认访问的是collection1数据库。11.使用 solr 中的 zkcli.sh工具把 solrhome/collection1/conf配置目录上传到 zookeeper集群中的每个zookeeper&＃xff1a;目的&＃xff1a;让 zookeeper 统一管理配置文件。 1.tar -zxvf solr-4.10.3.tgz.tgz2.cd solr-4.10.3/example/scripts/cloud-scripts 3.所执行命令的格式&＃xff1a;./zkcli.sh -zkhost zookeeper的IP:端口 -cmd upconfig -confdir 任意某个solrhome下的collection1/conf配置目录 -confname myconf参数解释&＃xff1a;-zkhost&＃xff1a;指定zookeeper地址列表(IP:端口)-cmd&＃xff1a;指定命令。upconfig 为上传配置的命令-confdir&＃xff1a;solrhome下的collection1/conf配置目录-confname&＃xff1a;配置名称4.执行命令之前保证zookeeper启动了5.所执行的命令&＃xff1a;./zkcli.sh -zkhost 192.168.25.128:2181,192.168.25.128:2182,192.168.25.128:2183 -cmd upconfig -confdir /usr/local/solrhomes/solrhome-1/collection1/conf -confname myconf12.启动solr集群&＃xff1a;1.首先启动每个 tomcat&＃xff0c;要保证 zookeeper 集群是启动状态。2.启动每个tomcat&＃xff0c;每个tomcat下的webapps都带有solr工程。3.cd /usr/local/solr-cloud/tomcat-1/bin./startup.sh4.cd /usr/local/solr-cloud/tomcat-2/bin./startup.sh5.cd /usr/local/solr-cloud/tomcat-3/bin./startup.sh6.cd /usr/local/solr-cloud/tomcat-4/bin./startup.sh7.必须重启zookeeper集群中的每个zookeeper 13.输入格式 192.168.25.133:8180/solr工程名测试是否搭建成功&＃xff1a;1.成功访问4个solr&＃xff1a;192.168.25.133:8180/solr、192.168.25.133:8280/solr、192.168.25.133:8380/solr、192.168.25.133:8480/solr 查看是否打开成功2.查看4个solr中的“Cloud”&＃xff0c;注意全部solr显示绿色&＃xff1a;

3.对4个solr中的 collection1数据库进行查询solr数据

Spring Data Solr 连接 SolrCloud

1.只有当前war工程自身的pom.xml中配置有的话&＃xff0c;那么针对war工程不仅需要install -P“id标签值”&＃xff0c;同样也需要使用tomcat7:run -P“id标签值”。 2.如果当前war工程自身的pom.xml中没有配置的话&＃xff0c;而war工程所依赖的jar工程中的pom.xml中配置有的话&＃xff0c;那么针对war工程只需要install 和 tomcat7:run 即可&＃xff0c;无需加上 -P“id标签值”。

solr集群分片设置

1.创建新的 Collection 进行新的分片处理&＃xff1a;在浏览器输入以下地址&＃xff0c;可以按照我们的要求创建新的Collection&＃xff1a; 执行语句&＃xff1a;http://192.168.25.133:8180/solr/admin/collections?action&＃61;CREATE&name&＃61;collection1&numShards&＃61;2&replicationFactor&＃61;2参数&＃xff1a;action&＃61;CREATE&＃xff1a;表示创建新的 Collection集合name&＃61;collection1&＃xff1a;表示创建新的 Collection集合的名字是collection1numShards&＃61;2&＃xff1a;代表的是SolrCloud的逻辑结构。表示创建的shard逻辑分片数为2。 replicationFactor&＃61;2&＃xff1a;代表的是SolrCloud的物理结构。表示创建的shard逻辑分片数的备份数为2&＃xff0c;那么其中一个为主&＃xff0c;另外一个为备。

2.删除不用的 Collection&＃xff1a;浏览器执行语句&＃xff1a;http://192.168.25.133:8180/solr/admin/collections?action&＃61;DELETE&name&＃61;collection1参数&＃xff1a;action&＃61;CREATE&＃xff1a;表示删除 Collection集合name&＃61;collection2&＃xff1a;表示删除的 Collection集合的名字是collection1

3.此处我们先删除原来的collection1数据库&＃xff0c;然后重新创建一个新的collection1数据库&＃xff0c;并且同时进行新的分片设置。1.删除原来的collection1数据库&＃xff1a;浏览器执行http://192.168.25.133:8180/solr/admin/collections?action&＃61;DELETE&name&＃61;collection1

2.重新创建一个新的collection1数据库&＃xff0c;并且同时进行新的分片设置&＃xff1a;浏览器执行http://192.168.25.133:8180/solr/admin/collections?action&＃61;CREATE&name&＃61;collection1&numShards&＃61;2&replicationFactor&＃61;2

3.给新的collection数据库重新存入solr数据&＃xff0c;需要执行pinyougou-solr-util项目中的SolrUtil.java才能把mysql数据存入到solr中&＃xff0c;同时还需要修改applicationContext-solr.xml中的连接solr服务器的配置&＃xff1a;1.给第一个solr的collection数据库重新存入solr数据&＃xff1a;applicationContext-solr.xml&＃xff1a;url&＃61;"http://192.168.25.133:8180/solr/collection1_shard1_replica1"2.给第二个solr的collection数据库重新存入solr数据&＃xff1a;applicationContext-solr.xml&＃xff1a;url&＃61;"http://192.168.25.133:8180/solr/collection1_shard1_replica2"3.给第三个solr的collection数据库重新存入solr数据&＃xff1a;applicationContext-solr.xml&＃xff1a;url&＃61;"http://192.168.25.133:8180/solr/collection1_shard2_replica1"4.给第四个solr的collection数据库重新存入solr数据&＃xff1a;applicationContext-solr.xml&＃xff1a;url&＃61;"http://192.168.25.133:8180/solr/collection1_shard2_replica2"

推荐阅读

lucene
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
python
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
python
mapreduce数据去重的实现方法

本文介绍了利用mapreduce实现数据去重的方法，同时还介绍了人工智能AI领域中常用的框架和工具，包括Keras、PyTorch、MXNet、TensorFlow和PaddlePaddle，并提供了深度学习实战的代码下载链接。 ... [详细]

蜡笔小新 2023-12-10 15:56:37
python
ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ... [详细]

蜡笔小新 2023-12-09 10:36:06
python
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
copy
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
copy
利用ASP.NET MVC和Bootstrap快速搭建响应式个人博客站(一)

1.0为什么要做这个博客站？　　在工作学习中，经常要搜索查找各种各样的资料，每次找到相关资料后都会顺手添加到浏览器书签中，时间一长，书签也就满了。而且下次再点击这个书签时，可能就会忘记当时为什么要添加这个书签了，更有可能书签连接已经无效。这样一来，也就不方便 ... [详细]

蜡笔小新 2023-10-15 13:22:17
client
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
python
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41
python
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48
jar
Lucene 全文检索技术入门

一、搜索引擎的历史萌芽：Archie、Gopher起步：Robot（网络机器人）的出现与spider（网络爬虫）发展：excite、galax ... [详细]

蜡笔小新 2023-10-11 19:18:42
utf-8
淘淘商城系列——商品搜索功能Service实现

首先我们在taotao-search-interface工程中新建一个SearchService接口，并在接口中添加一个方法，如下图所示。接着，我们到taotao-search-s ... [详细]

蜡笔小新 2023-10-11 18:46:05
数组
solr倒排索引（转载）

原文地址：http:blog.csdn.netchichengitarticledetails9235157http:blog.csdn.netnjpjsoftdevarticle ... [详细]

蜡笔小新 2023-10-11 18:30:46
数组
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
python
用AI把好朋友的照片转换为铅笔素描 —— 【模型识别2020之U2Net】

❤️【深度学习入门项目】❤️之【风格迁移】初识🚀本文墨理学AI带你了解如何用AI把好朋友的照片转换为铅笔素描❤️【带你了解】❤️❤️人脸》素描【humanportr ... [详细]

蜡笔小新 2023-10-13 09:59:33

三八依依2010

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章