solr亿万级索引优化实践（四）

作者：旧日旧面 | 来源：互联网 | 2023-05-18 04:15

本篇是这个系类的最后一篇，但优化方案不仅于此，需要后续的研究与学习，本篇主要从schema设计的角度来做一些实践。schema.xml这个文件的作用是定义索

本篇是这个系类的最后一篇，但优化方案不仅于此，需要后续的研究与学习，本篇主要从schema设计的角度来做一些实践。

schema.xml 这个文件的作用是定义索引数据中的域的，包括域名称，域类型，域是否索引，是否分词，是否存储，是否标准化，是否存储项向量等等。在solr6中这个文件是存放在zookeeper的/configs节点之下的，在创建新的collection时，solr会根据此节点下的信息生成相应的索引库，其相关的配置信息会同步到solrhome/core目录下的core.properties文件中。同步schema文件的指令语句样例为：

bin/solr zk -upconfig -z 127.0.01:2181 -n conf -d /solrhome/configsets/sample_techproducts_configs/conf

为了改进性能，可以从以下几个方面来着手：

1、对于field元素，我们将所有只用于搜索的，而不需要作为查询结果的field（特别是一些比较大的field）的stored设置为false，这样这个字段的值将不会被存储，但可以被检索，会减少不小的IO开销。我们设计了一个利用solr来做hbase的二级索引架构，可以利用hbase来存储字段信息，充分利用hadoop的大数据特性。

2、能不用copyfield这个元素就不用，这个属性会对字段做双倍存储，显然非常耗性能，好处就是在查询的时候，想要对多个字段进行检索只需要检索一个字段。

3、将一些不需要被检索的字段的index属性，设置成false，这样solr就不会对这个字段进行索引。

5、不使用中文分词器或者使用高亮功能。termPositions termOffsets的值全都设置成false。

6、在测试中发现solr在处理小报文（1K以下）的情况下吞吐量并不理想，当适当增大报文，发现速度可以得到大幅度提高，可以从之前的每个节点10M/S暴涨到30M/S。

但是在很多情况下，我们并不能人为控制报文长度，这个时候，可以通过solr的字段多值来达到目的，即将将多条消息的每个字段的值放到一起，在schema中配置multValued为true。存储到solr中是这个样子的：

这样速度是可以单台节点达到30M/S甚至更高，但是带来的问题就是查询会变得很复杂，在命中多值中任意一条记录，结果集会带出所有值，在solr中认为这一组数据是一个文档，我们想了很多方案来解决这个问题，比较简单的方法是，在生成文档的时候控制多值字段中，没有重复的值，这样检索结果则会变得精确，缺点就是灵活性太低。另一个方案，是通过对数据做预聚合，管理快照，由于其实现比较复杂，效果也不是很理想，在此就不做过多描述了。

在不追求检索精确度，或者对数据可控的情况下，对于索引速度真的可以带来很大的惊喜。

尾言：solr由于是利用lucene为底层，lucene本身是单机的无法分布式，solr的核心就是引入了分片的机制，在数据规模变得特别庞大的时候各种弊端就显示出来了，无论是建立索引还是查询性能都不尽人意。但通过各种方法的优化与舍弃之后，差不多可以做到水平拓展，线性增长，能够满足大多数的业务场景。但是如果是要对历史数据进行检索的时候，这个历史数据规模又是极其巨量时，solr恐怕是无法承受的。现在兴起了很多列式存储结构以及时间序列的数据库以及仓库，比如driud和tsdb，他们在巨量数据检索时可以带来极高的性能体验。

推荐阅读

int
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
java
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48
ip
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
input
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
get
分布式开源任务调度框架 TBSchedule 深度解析与应用实践

本文深入解析了分布式开源任务调度框架 TBSchedule 的核心原理与应用场景，并通过实际案例详细介绍了其部署与使用方法。首先，从源码下载开始，详细阐述了 TBSchedule 的安装步骤和配置要点。接着，探讨了该框架在大规模分布式环境中的性能优化策略，以及如何通过灵活的任务调度机制提升系统效率。最后，结合具体实例，展示了 TBSchedule 在实际项目中的应用效果，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-02 11:59:52
get
【并发编程】全面解析 Java 内存模型，一篇文章带你彻底掌握

本文深入解析了 Java 内存模型（JMM），从基础概念到高级特性进行全面讲解，帮助读者彻底掌握 JMM 的核心原理和应用技巧。通过详细分析内存可见性、原子性和有序性等问题，结合实际代码示例，使开发者能够更好地理解和优化多线程并发程序。 ... [详细]

蜡笔小新 2024-11-02 09:09:51
get
全面解析：Hadoop技术栈中的Linux操作系统概览

全面解析：Hadoop技术栈中的Linux操作系统概览 ... [详细]

蜡笔小新 2024-10-31 07:37:50
get
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
java
如何正确配置与使用日志组件：Log4j、SLF4J及Logback的连接与整合方法

在当前的软件开发实践中，无论是开源项目还是日常工作中，日志框架都是不可或缺的工具之一。本文详细探讨了如何正确配置与使用Log4j、SLF4J及Logback这三个流行的日志组件，并深入解析了它们之间的连接与整合方法，旨在帮助开发者高效地管理和优化日志记录流程。 ... [详细]

蜡笔小新 2024-10-29 18:06:59
java
阿里巴巴Java后端开发面试：TCP、Netty、HashMap、并发锁与红黑树深度解析

阿里巴巴Java后端开发面试：TCP、Netty、HashMap、并发锁与红黑树深度解析 ... [详细]

蜡笔小新 2024-10-26 14:26:06
java
字节Java高级岗：java开发cpu吃多线程吗

前言抱着侥幸心理投了字节跳动后台JAVA开发岗，居然收到通知去面试，一面下整个人来都是懵逼的，不知道我对着面试官都说了些啥（捂脸~~）。侥幸一面居然过了，三天后接到二面通知，结果这 ... [详细]

蜡笔小新 2024-10-20 20:15:35
java
ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ... [详细]

蜡笔小新 2023-12-09 10:36:06
ip
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
ip
lucene配置动态域_基于Lucene的网站全文搜索的设计与实现.

科技情报开发与经济文章编号：１００５－６０３ÿ ... [详细]

蜡笔小新 2023-10-16 10:52:49
java
solr导入mysql_Solr导入MySQL中的数据

一、目标将MySQL数据库中的数据导入至Solr中，并且由Solr生成中文索引，使用Solr查询信息。二、数据导入1、将solr-8.2.0dist下的 ... [详细]

蜡笔小新 2023-10-12 18:08:48

旧日旧面

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章