solr架构

作者：loring8 | 来源：互联网 | 2023-08-29 19:59

solr-架构优点主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。Solr是高度

solr-架构

优点
主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成&＃xff0c;以及富文本&＃xff08;如Word、PDF&＃xff09;的处理。Solr是高度可扩展的&＃xff0c;并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎&＃xff0c;Solr4 还增加了NoSQL支持。
Solr是用Java编写、运行在Servlet容器&＃xff08;如 Apache Tomcat 或Jetty&＃xff09;的一个独立的全文搜索服务器。 Solr采用了 Lucene Java 搜索库为核心的全文索引和搜索&＃xff0c;并具有类似REST的HTTP/XML和JSON的API。Solr强大的外部配置功能使得无需进行Java编码&＃xff0c;便可对其进行调整以适应多种类型的应用程序。Solr有一个插件架构&＃xff0c;以支持更多的高级定制。
Solr有一个更大、更成熟的用户、开发和贡献者社区。
支持添加多种格式的索引&＃xff0c;如&＃xff1a;HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
Solr比较成熟、稳定。
不考虑建索引的同时进行搜索&＃xff0c;速度更快。

不足
建立索引时&＃xff0c;搜索效率下降&＃xff0c;实时索引搜索效率不高。
(1) http 请求做了cache&＃xff0c;有时候会出现新数据不可见&＃xff0c;cache滞后的问题。—cache优化下也不是问题

(2) admin 后台页面&＃xff0c;支持中文、复杂查询语法上&＃xff0c;欠友好。—自己稍加扩展也不是问题

(3) swap core
的时候&＃xff0c;单结点多core&＃xff0c;并且core对应的索引比较大的时候&＃xff0c;切换过程出现内存2倍化现象&＃xff0c;甚至超时现象。—如果分前后排切换这些都不是问题了。

(4) index build和index search
往往在一起&＃xff0c;导致全量过程&＃xff0c;磁盘峰值3倍化。一份原来的、一份新建的、一份优化的时候。—-当然&＃xff0c;build和search分离是可以解决这个问题的&＃xff0c;也是常规做法。

(5) build 和search和在一起&＃xff0c;也使得build
和search的一些参数设置不能区别对待&＃xff0c;尤其是build和search合体的时候&＃xff0c;预留磁盘、内存等加速build&＃xff0c;反而影响search。—-当然可以
build search分离搞定

(6) 分布式查询&＃xff0c;如果有merge&＃xff0c;性能有些问题。—-当然可以将数据分区&＃xff0c;避免merge

(7)
得分因子是可以调整的&＃xff0c;但是得分因子的增加、得分公式的扩展&＃xff0c;无法直接从solr配置插入。—-但是&＃xff0c;可以扩展lucene的代码或者参数spanquery&＃xff0c;重新一个query&＃xff0c;插入solr&＃xff0c;这样工作量稍大.另外&＃xff0c;社区提供了bm25、pagerank等排序batch&＃xff0c;对lucene有所以了解后&＃xff0c;就可以直接引用了。

(8) solr
分布式索引全量、增量控制粒度&＃xff0c;尚不够友好。指定结点、任何时刻全量&＃xff0c;指定条件下增量都不够顺利。尽管solr提供了自定义扩展实现方法。这些也不是很大问题。

(9) solr
build和search和在一起&＃xff0c;数据和业务其实绑定在一起了&＃xff0c;没有彻底隔离。使得在上100个core的时候&＃xff0c;数据源管理维护变得非常消耗资源。直接引入hadoop或者其他nosql存储时目前最流行的用来隔离数据和业务耦合性了。开源的分布式lucene方案非常多.

(10) ABTest 共享相同索引目录&＃xff0c;而不同排序或者不同分词 solr不能直接支持

(11) ABTest 独立索引目录&＃xff0c;不同排序或者不同分词&＃xff0c;solr也不能直接支持

(12) 一个core
对应多个子目录&＃xff0c;查询既可以查指定子目录也可以全部子目录查&＃xff0c;以及更新某个子目录索引或者全部子目录索引&＃xff0c;solr也不能直接支持&＃xff0c;而这些在大数据量的时候是需要支持这些功能的。

(13)solr或者lucene
目前不支持快速的“局部”更新。这里是指对document的某个字段的快速更新&＃xff0c;目前是需要传入完整的document&＃xff0c;然后add进去。如果document
的不变字段来源多个源的话&＃xff0c;IO、计算资源有些浪费&＃xff0c;如果更新量不大还好。—当然可以对更新的单独开辟内存来处理&＃xff0c;而更大的那个基本索引不去动他。

(14)solr不支持第三方条件过滤。例如从倒排中过滤处理一批doc&＃xff0c;而这些doc需要与外部源进行doc
域值过滤。问题主要是第三方信息动态性太强&＃xff0c;不利于直接写索引中去。

(15&＃xff09;solr 在支持中文分词的时候&＃xff0c;有很多第三方包可以引入&＃xff0c;但需要扩展query
parse有时候&＃xff0c;总体看有优势也有劣势。优势是引入方便&＃xff0c;劣势是词库、算法体系和lucene的不完全兼容&＃xff0c;扩展、完善不是那么容易。

(16)
在排序上&＃xff0c;对与去重或者对应基于时间动态性上&＃xff0c;还没有现成的支持。去重是指排序的前几条结果&＃xff0c;可能某个域值完全相同了&＃xff0c;或者某几个域值完全相同&＃xff0c;导致看起来&＃xff0c;靠前的结果带有一些关联字段的“聚集性”&＃xff0c;对有些应用来说&＃xff0c;并不是最好的。
在时间因素上动态性&＃xff0c;也没有直接支持&＃xff0c;也只能靠间接的按时间排序来实现。
这个问题其实不是lucene、solr要关注的吧&＃xff0c;应该是应用的特殊性导致的吧。

(17) solr
、lucene输出的日志&＃xff0c;尚没有一个通用的分析工具&＃xff0c;包括高频词、查询query聚合性等。只能自行去解析。

(18) 在支持推荐上&＃xff0c;还不能将log信息直接关联起来&＃xff0c;推荐也基本上靠离线计算好&＃xff0c;导入倒排索引&＃xff0c;查询再关联起来。

(19) 当内存30个G 以上&＃xff0c;单节点索引数据量比较大的时候&＃xff0c;jvm
环境下FGC和内存管理显得非常辣手。调优需要仔细的测试

(20) lucene很少面向接口&＃xff0c;solr很多面向接口&＃xff0c;插件化、可扩展使得solr很灵活

(21)
对于垂直型的平台化搜索&＃xff0c;支持N个不同应用、不同schema、不同数据源、不同更新频率、不同查询逻辑、不同访问请求量、不同性能指标要求、不同机器配置、垂直扩容、水平扩容&＃xff0c;solr显得不够胜任&＃xff0c;尽管

solrcloud中已经有非常多的宝贵设计经验。

(22)
流控和数控&＃xff0c;solr也不能直接支持。访问请求不支持定时和定量控制&＃xff0c;索引垂直扩容&＃xff08;增加索引副本&＃xff0c;支撑更多访问请求&＃xff09;、索引水平扩容&＃xff08;增加索引分区数&＃xff0c;支撑更多数据量&＃xff0c;平衡性能和空间压力&＃xff09;

(23) solr自容错还不够强大。例如schema
变更导致的不合理检测以及配置错误的回滚、solrconfig的一些参数不能动态获取&＃xff0c;必须事先配置好。oom之后不能自动reload&＃xff01;请求量大的时候也不能抛弃一些请求。

(24) 基于位操作的高级应用还不够灵活&＃xff0c;例如boolean 存储和facet、byte[]
存储和facet、group等&＃xff0c;支撑仍然不够友好。

(25) query parse
基本没有预测功能&＃xff0c;不能调整query顺序和自动收缩条件。当然一般情况下是不需要这么复杂的优化。

&＃xff08;26&＃xff09;一些比较变态的查询需求不是特别高效。例如查询某个域不空。当然可以将空域采取默认值代替&＃xff0c;查询默认值再过滤。

(27)对于唯一值域&＃xff0c;没有优化&＃xff0c;导致唯一值域的term数据膨胀。最常见的就是更新时间、上传时间等&＃xff0c;占了非常大的term比例

(28)multivalue 字段&＃xff0c;实质是建立多个相同域名的字段&＃xff0c;并不是一个域。对于域值很多内容的话&＃xff0c;只好和在一起保存。同时&＃xff0c;long
int short float double 等数组不能直接作为一个类型保存&＃xff0c;全部得转为字符存储。空间和效率有些低。

(29)有些词出现的频率特别高&＃xff0c;导致该词的倒排连非常长&＃xff0c;solr、lucene也没有干涉。任务交给应用自己斟酌&＃xff0c;实际上solr单节点对于命中超过100w的&＃xff0c;并多字段排序的时候&＃xff0c;cache失效时性能非常糟糕的。

(30)solr\lucene 对于千万级别应用非常擅长&＃xff0c;亿级别应用需要慎重对待。

这里写图片描述

请求处理

这里写图片描述

建立索引

这里写图片描述

参考站点&＃xff1a;
http://lxm3033.iteye.com/blog/1811286
http://www.cnblogs.com/renzherushe/p/4782396.html
http://www.cnblogs.com/chowmin/articles/4629220.html

推荐阅读

java
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
java
基于Java的多功能文档阅读器

介绍一个完全用Java开发的文档阅读器——XDocViewer，该组件易于集成到各种Java应用程序中，包括Web应用。其主要特点包括：免费使用、支持多种文档格式、依赖项精简、集成简便以及强大的API功能。 ... [详细]

蜡笔小新 2024-11-26 21:42:48
java
集群与负载均衡技术解析

本文探讨了集群(Cluster)的概念，即通过网络连接的一组计算机系统，它们作为一个整体提供服务，实现分布式计算。文章还详细介绍了负载均衡技术，旨在提高网络服务的效率和可靠性。 ... [详细]

蜡笔小新 2024-11-26 13:44:24
java
如何高效学习鸿蒙操作系统：开发者指南

本文探讨了开发者如何更有效地学习鸿蒙操作系统，提供了来自行业专家的建议，包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]

蜡笔小新 2024-11-23 19:22:14
java
Golang与微服务架构：构建高效微服务

本文探讨了Golang在微服务架构中的应用，包括Golang的基本概念、微服务开发的优势、常用开发工具以及具体实践案例。 ... [详细]

蜡笔小新 2024-11-26 19:21:09
java
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
java
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
cmd
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
web
分布式计算助力链力实现毫秒级安全响应，确保100%数据准确性

随着分布式计算技术的发展，其在数据存储、文件传输、在线视频、社交平台及去中心化金融等多个领域的应用日益广泛。国际知名企业如Firefox、Google、Opera、Netflix、OpenBazaar等均已采用该技术，推动了技术创新和服务升级。 ... [详细]

蜡笔小新 2024-11-24 18:25:00
function
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
java
全面覆盖的前端技术资源大全

本文提供了一个详尽的前端开发资源列表，涵盖了从基础入门到高级应用的各个方面，包括HTML5、CSS3、JavaScript框架及库、移动开发、API接口、工具与插件等。 ... [详细]

蜡笔小新 2024-11-23 12:05:53
request
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
java
Java虚拟机及其发展历程

Java虚拟机（JVM）是每个Java开发者日常工作中不可或缺的一部分，但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程，帮助读者深入了解这一关键技术。 ... [详细]

蜡笔小新 2024-11-23 08:59:58
java
诚邀资深后端开发工程师加盟，共谋家乡发展

一家位于长沙的知名网络安全企业，现面向全国诚聘高级后端开发工程师，特别欢迎具有一线城市经验的技术精英回归故乡，共创辉煌。 ... [详细]

蜡笔小新 2024-11-22 19:22:15
main
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54

loring8

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章