当前位置: 开发笔记 > 编程语言 > 正文

全量同步Elasticsearch方案之Canal

作者：BIGBANG-YG-BEAR | 来源：互联网 | 2023-09-16 13:03

全,量,同步,elasticsearch,

file

一、前言

Canal 是阿里的一款开源项目，纯 Java 开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了 MySQL(也支持 mariaDB)。

file

Canal 除了支持 binlog 实时 增量同步 数据库之外也支持 全量同步 ，本文主要分享使用Canal来实现从MySQL到Elasticsearch的全量同步；

可通过使用 adapter 的 REST 接口手动触发 ETL 任务，实现全量同步。

在执行全量同步的时候，同一个 destination 的增量同步任务会被阻塞，待全量同步完成被阻塞的增量同步会被 重新唤醒

PS：关于Canal的部署与 实时同步 请看文章《Canal高可用架构部署》

二、ETL接口

adapter 的 ETL 接口为：/etl/{type}/{task}

默认web端口为 8081
type 为类型(hbase/es7/rdb)
task 为任务名对应配置文件名，如sys_user.yml

例子：

curl -X POST http://127.0.0.1:8081/etl/es7/sys_user.yml

执行成功输出：

{"succeeded":true,"resultMessage":"导入ES 数据：17 条"}

三、实践过程中遇到的坑

3.1. 连接池不够

当同步的数据量比较大时，执行一段时间后会出现下图的错误 file

3.1.1. 原因分析

查看 canal 源码得知当同步的数据量大于1w时，会分批进行同步，每批1w条记录，并使用多线程来并行执行任务，而 adapter 默认的连接池为3，当线程获取数据库连接等待超过1分钟就会抛出该异常。

线程数为当前服务器cpu的可用线程数

3.1.2. 解决方式

修改 adapter 的 conf/application.yml 文件中的 srcDataSources 配置项，增加 maxActive 配置数据库的最大连接数为当前服务器cpu的可用线程数

cpu线程数可以下命令查看

grep 'processor' /proc/cpuinfo | sort -u | wc -l

3.2. es连接超时

当同步的表字段比较多时，几率出现以下报错 mark

3.2.1. 原因分析

由于 adapter 的表映射配置文件中的 commitBatch 提交批大小设置过大导致(6000)

3.2.2. 解决方式

修改 adapter 的 conf/es7/xxx.yml 映射文件中的 commitBatch 配置项为3000

3.3. 同步慢

三千万的数据量用时3.5小时左右

3.3.1. 原因分析

file

由于当数据量大于1w时 canal 会对数据进行分批同步，每批1w条通过分页查询实现；所以当数据量较大时会出现深分页的情况导致查询非常慢。

3.3.2. 解决方式

预先使用ID、时间或者业务字段等进行数据分批后再进行同步，减少每次同步的数据量。

3.3.3. 案例

使用ID进行数据分批，适合增长类型的ID，如自增ID、雪花ID等；

查出 最小ID、最大ID 与 总数据量
根据每批数据量大小计算每批的 ID区间

计算过程：

最小ID = 1333224842416979257
最大ID = 1341698897306914816
总数据量 = 3kw
每次同步量 = 300w

(1) 计算同步的次数

总数据量 / 每次同步量 = 10

(2) 计算每批ID的增量值

(最大ID - 最小ID) / 次数 = 847405488993555.9

(3) 计算每批ID的值

最小ID + 增量值 = ID2 ID2 + 增量值 = ID3 ... ID9 + 增量值 = 最大ID

(4) 使用分批的ID值进行同步

修改sql映射配置，的 etlCondition 参数：

etlCondition: "where id >= {} and id <{}"

调用etl接口，并增加 params 参数，多个参数之间使用 ; 分割

curl -X POST http://127.0.0.1:8081/etl/es7/sys_user.yml?params=最小ID;ID2 curl -X POST http://127.0.0.1:8081/etl/es7/sys_user.yml?params=ID2;ID3 ...

扫码关注有惊喜！

file

推荐阅读

java
Java架构师的核心技能与知识体系

成为一名高效的Java架构师不仅需要掌握高级Java编程技巧，还需深入理解JVM的工作原理及其优化方法。此外，对池技术（包括对象池、连接池和线程池）的应用、多线程处理、集合对象的内部机制、以及常用的数据结构和算法的精通也是必不可少的。同时，熟悉Linux操作系统、TCP/IP协议栈、HTTP协议等基础知识，对于构建高效稳定的系统同样重要。 ... [详细]

蜡笔小新 2024-11-28 10:01:17
config
Spring Boot集成与使用JPA详解

本文详细介绍如何在Spring Boot项目中集成和使用JPA，涵盖JPA的基本概念、Spring Data JPA的功能以及具体的操作步骤，帮助开发者快速掌握这一强大的持久化技术。 ... [详细]

蜡笔小新 2024-11-27 17:44:54
config
深入探讨Web服务器与动态语言的交互机制：CGI、FastCGI与PHP-FPM

本文详细解析了Web服务器（如Apache、Nginx等）与动态语言（如PHP）之间通过CGI、FastCGI及PHP-FPM进行交互的具体过程，旨在帮助开发者更好地理解这些技术背后的原理。 ... [详细]

蜡笔小新 2024-11-26 20:03:27
config
Golang与微服务架构：构建高效微服务

本文探讨了Golang在微服务架构中的应用，包括Golang的基本概念、微服务开发的优势、常用开发工具以及具体实践案例。 ... [详细]

蜡笔小新 2024-11-26 19:21:09
config
Nagios可视化插件开发指南 —— 配置详解

本文详细介绍了Nagios监控系统的配置过程，包括数据库的选择与安装、Nagios插件的安装及配置文件的解析。同时，针对常见的配置错误提供了具体的解决方法。 ... [详细]

蜡笔小新 2024-11-26 16:13:46
java
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
request
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
java
2020年腾讯PCG后端开发实习生面试经历分享

本文详细记录了2020年腾讯平台与内容事业群(PCG)后端开发实习生岗位的面试过程，包括初试和复试的主要内容和技术考察点。 ... [详细]

蜡笔小新 2024-11-28 11:49:57
uml
精选Eclipse插件概览

本文介绍了多种Eclipse插件，包括XML Schema Infoset Model (XSD)、Graphical Editing Framework (GEF)、Eclipse Modeling Framework (EMF)等，涵盖了从Web开发到图形界面编辑的多个方面。 ... [详细]

蜡笔小新 2024-11-26 16:20:20
java
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
java
阿里云服务器新手指南：六步轻松部署网站

对于初次购买阿里云服务器的新手用户来说，如何高效地利用服务器资源并成功部署网站是一个重要的课题。本文将详细指导您完成从购买服务器到网站上线的六个关键步骤。 ... [详细]

蜡笔小新 2024-11-26 12:31:45
config
首次周测解析与答案

本文档提供了首次周测的答案解析，涵盖特殊符号、命令作用、路径说明以及实战练习等内容。 ... [详细]

蜡笔小新 2024-11-25 14:28:11
config
MySQL 高级特性深度解析

本文深入探讨了MySQL中的高级特性，包括索引机制、锁的使用及管理、以及如何利用慢查询日志优化性能。适合有一定MySQL基础的读者进一步提升技能。 ... [详细]

蜡笔小新 2024-11-23 22:01:49
java
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
config
MySQL 安装指南

本文档提供了详细的MySQL安装步骤，包括解压安装文件、选择安装类型、配置MySQL服务以及设置管理员密码等关键环节，帮助用户顺利完成MySQL的安装。 ... [详细]

蜡笔小新 2024-11-27 09:10:30

BIGBANG-YG-BEAR

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章