当前位置: 开发笔记 > 编程语言 > 正文

Solr定时增量更新

作者：nora抹抹茶I | 来源：互联网 | 2023-05-18 09:19

1概述将数据库中的数据导入到了solr中之后，如果数据库中的数据有变动，solr中还是第一次导入的旧的数据，因此需要定时检测数据库中的数据变化，并实时将变化的数据同步到solr中。2配

1 概述

将数据库中的数据导入到了solr中之后，如果数据库中的数据有变动，solr中还是第一次导入的旧的数据，因此需要定时检测数据库中的数据变化，并实时将变化的数据同步到solr中。

2 配置定时同步

2.1 下载

下载地址：http://download.csdn.net/detail/vtopqx/9891724

将下载的solr-dataimport-scheduler.jar拷贝到solr的lib目录下，

如：G:\solr\server\solr-webapp\webapp\WEB-INF\lib

2.2 数据库配置

配置数据库字段，其中关键字段updateTime，该字段非常重要，有了这样一个字段，Solr才能判断增量导入的时候，哪些数据是新的。

因为Solr在dataimport.properties文件中会存储一个默认值last_index_time，记录最后一次做full import或者是delta import(增量导入）的时间。

2.3 solr配置

1、修改数据库连接文件配置db-data-config.xml文件，配置如下：

 
      
     
        query="SELECT* FROM solr_user where isdelete =0 "  
deltaImportQuery="SELECT* FROM solr_user where id = '${dih.delta.id}'"  
deletedPkQuery="SELECTid FROM solr_user where isdelete =1 "
deltaQuery="SELECTid FROM solr_user where updateTime >'${dataimporter.last_index_time}'">

属性说明：

data-config.xml里面的数据

  
   
      注意这个只能返回ID字段 
   
   注意这个只能返回ID字段

配置说明：

query查询是指查询出表里所有的符合条件的数据，因为笔者测试的有删除业务，所以

where 后面有一个限定条件isdelete=0，意思为查询未被删除的数据

(注意这个query查询只对第一次全量导入有作用，对增量导入不起作用)

deltaQuery的意思是，查询出所有经过修改的记录的ID

可能是修改操作，添加操作，删除操作产生的

(此查询只对增量导入起作用，而且只能返回ID值)

deletedPkQuery此操作值查询那些数据库里伪删除的数据的ID（即isdelete标识为1的数据）

solr通过它来删除索引里面对应的数据

(此查询只对增量导入起作用，而且只能返回ID值)

deltaImportQuery此查询是获取以上两步的ID，然后把其全部数据获取，根据获取的数据

对索引库进行更新操作，可能是删除，添加，修改

(此查询只对增量导入起作用，可以返回多个字段的值,一般情况下，都是返回所有字段的列)

注：

1.如果只涉及添加，与修改业务，那么数据库里只需额外有一个timpstamp字段
就可以了，默认值为当前系统时间，CURRENT_TIMESTAMP（笔者的数据为mysql的）
2.如果还涉及删除业务，那么数据里就需额外再多添加一个字段isdelete，int类型的
用0,1来标识，此条记录是否被删除，当然也可以用其他字段标识，ture或false都可以

2、修改managed-schema文件，新增索引字段

由于solr5.x中已经有默认id属性配置，因此当数据库字段名称为id时可以不用配置，主键字段为其它名称时需要配置

2.4 定时同步配置

进入solr_home目录，如：/solr/server/solr/

新建conf目录，并创建dataimport.properties文件，内容如下：

#################################################
#                                              #
#      dataimport scheduler properties        #
#                                              #
#################################################
 
#  tosync or not to sync
#  1- active; anything else - inactive
# 这里的配置不用修改
syncEnabled=1
 
# which cores to schedule
#  ina multi-core environment you can decide which cores you want syncronized
# leave empty or comment it out if using single-core deployment
#  修改成你所使用的core，我这里是我自定义的core：simple
syncCores=solr_db_scheduler
 
# solr server name or IP address
# [defaults to localhost if empty]
这个一般都是localhost不会变
server=localhost
 
# solr server port
# [defaults to 80 if empty]
#  安装solr的tomcat端口，如果你使用的是默认的端口，就不用改了，否则改成自己的端口就好了
port=8983
 
# application name/context
# [defaults to current ServletContextListener's context (app) name]
#  这里默认不改
webapp=solr
 
# URL params [mandatory]
# remainder of URL
#  这里改成下面的形式，solr同步数据时请求的链接
params=/dataimport?command=delta-import&clean=false&commit=true
 
# schedule interval
# number of minutes between two runs
# [defaults to 30 if empty]
#这里是设置定时任务的，单位是分钟，也就是多长时间你检测一次数据同步，根据项目需求修改
#  开始测试的时候为了方便看到效果，时间可以设置短一点
interval=1
 
#  重做索引的时间间隔，单位分钟，默认7200，即5天;
#  为空,为0,或者注释掉:表示永不重做索引
reBuildIndexInterval=7200
 
#  重做索引的参数
reBuildIndexParams=/select?qt=/dataimport&command=full-import&clean=true&commit=true
 
#  重做索引时间间隔的计时开始时间，第一次真正执行的时间=reBuildIndexBeginTime+reBuildIndexInterval*60*1000；
#  两种格式：2012-04-11 03:10:00 或者 03:10:00，后一种会自动补全日期部分为服务启动时的日期
reBuildIndexBeginTime=03:10:00

以上配置可以简单修改红色部分即可，默认为一分钟检测一次，如果有数据变动则同步。

2.5 测试

以上配置完成后，停止solr，并重启

Solr.cmd stop –all

Solr.cmd start

浏览器访问：http://localhost:8983/solr/ 选择相应的core后，可以看到之前的已导入的数据库数据有三条，

然后修改数据库数据，新增一条和修改一条以及删除一条：

改完之后，再次查询solr(注：由于前面配置的是1分钟后刷新，所以需要等一分钟)，再次查询如下图：

可以看到张三已经被删除，王五做了修改，test新增。

至此solr与数据库数据同步完成。

推荐阅读

jar
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
python
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
config
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
java
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
java
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
loops
Oracle 中从 XMLType 列提取数据并插入到 VARCHAR2 列：性能优化

本文讨论了在 Oracle 10gR2 和 Solaris 10 64-bit 环境下，从 XMLType 列中提取数据并插入到 VARCHAR2 列时遇到的性能问题，并提供了优化建议。 ... [详细]

蜡笔小新 2024-11-15 11:32:10
loops
Android布局优化：使用标签

本文主要介绍如何使用标签来优化Android应用的UI布局，通过减少不必要的视图层次，提高应用性能。 ... [详细]

蜡笔小新 2024-11-15 11:06:03
java
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
less
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
less
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
java
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
jar
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
sum
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
sum
Android 系统版本号获取方法详解

本文详细介绍了如何在 Android 应用中获取系统的版本号，包括具体的应用场景和实现步骤。 ... [详细]

蜡笔小新 2024-11-12 14:43:24

nora抹抹茶I

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章