开源数据同步神器——canal

作者：mobiledu2502881283 | 来源：互联网 | 2023-09-11 09:23

开源,数据,同

前言

如今大型的IT系统中，都会使用分布式的方式，同时会有非常多的中间件，如redis、消息队列、大数据存储等，但是实际核心的数据存储依然是存储在数据库，作为使用最广泛的数据库，如何将mysql的数据与中间件的数据进行同步，既能确保数据的一致性、及时性，也能做到代码无侵入的方式呢？如果有这样的一个需求，数据修改后，需要及时的将mysql中的数据更新到elasticsearch,我们会怎么进行实现呢？

数据同步方案选择

针对上文的需求，经过思考，初步有如下的一些方案：

代码实现
针对代码中进行数据库的增删改操作时，同时进行elasticsearch的增删改操作。

mybatis实现
通过mybatis plugin进行实现，截取sql语句进行分析，针对insert、update、delete的语句进行处理。显然，这些操作如果都是单条数据的操作，是很容易处理的。但是，实际开发中，总是会有一些批量的更新或者删除操作，这时候，就很难进行处理了。
Aop实现
不管是通过哪种Aop方式，根据制定的规则，如规范方法名，注解等进行切面处理，但依然还是会出现无法处理批量操作数据的问题。
logstash
logstash类似的同步组件提供的文件和数据同步的功能，可以进行数据的同步，只需要简单的配置就能将mysql数据同步到elasticsearch，但是logstash的原理是每秒进行一次增量数据查询，将结果同步到elasticsearch，实时性要求特别高的，可能无法满足要求。且此方案的性能不是很好，造成资源的浪费。

实现方式	优缺点
代码实现	技术难度低，侵入性强，实时性高
基于mybatis	有一定的技术难度，但是无法覆盖所有的场景
Aop实现	技术难度低，半侵入性，需要规范代码，依然无法覆盖所有的场景
logstash	技术难度低，无侵入性，无需开发，但会造成资源浪费。

那么是否有什么更好的方式进行处理吗？mysql binlog同步，实时性强，对于应用无任何侵入性，且性能更好，不会造成资源浪费，那么就有了我今天的主角——canal

canal

介绍

canal 是阿里巴巴的一个开源项目，基于java实现，整体已经在很多大型的互联网项目生产环境中使用，包括阿里、美团等都有广泛的应用，是一个非常成熟的数据库同步方案，基础的使用只需要进行简单的配置即可。
canal是通过模拟成为mysql 的slave的方式，监听mysql 的binlog日志来获取数据，binlog设置为row模式以后，不仅能获取到执行的每一个增删改的脚本，同时还能获取到修改前和修改后的数据，基于这个特性，canal就能高性能的获取到mysql数据数据的变更。

使用

canal的介绍在官网有非常详细的说明，如果想了解更多，大家可以移步官网（https://github.com/alibaba/canal）了解。我这里补充下使用中不太容易理解部分。
canal的部署主要分为server端和client端。
server端部署好以后，可以直接监听mysql binlog,因为server端是把自己模拟成了mysql slave，所以，只能接受数据，没有进行任何逻辑的处理，具体的逻辑处理，需要client端进行处理。
client端一般是需要大家进行简单的开发。https://github.com/alibaba/canal/wiki/ClientAPI 有一个简单的示例，很容易理解。

canal Adapter

为了便于大家的使用，官方做了一个独立的组件Adapter，Adapter是可以将canal server端获取的数据转换成几个常用的中间件数据源，现在支持kafka、rocketmq、hbase、elasticsearch，针对这几个中间件的支持，直接配置即可，无需开发。上文中，如果需要将mysql的数据同步到elasticsearch，直接运行 canal Adapter，修改相关的配置即可。

常见问题

无法接收到数据，程序也没有报错？
一定要确保mysql的binlog模式为row模式，canal原理是解析Binlog文件，并且直接中文件中获取数据的。
Adapter 使用无法同步数据？
按照官方文档，检查配置项，如sql的大小写，字段的大小写可能都会有影响，如果还无法搞定，可以自己获取代码调试下，Adapter的代码还是比较容易看懂的。

canal Adapter elasticsearch 改造

因为有了canal和canal Adapter这个神器，同步到elasticsearch、hbase等问题都解决了，但是自己的开发的过程中发现，Adapter使用还是有些问题，因为先使用的是elasticsearch同步功能，所以对elasticsearch进行了一些改造：

elasticsearch初始化

一个全新的elasticsearch无法使用，因为没有创建elasticsearch index和mapping,增加了对应的功能。
elasticsearch配置文件mapping节点增加两个参数：

 enablefieldmap: true fieldmap: id: "text" BuildingId: "text" HouseNum: "text" Floors: "text" IdProjectInfo: "text" HouseDigitNum: "text" BuildingNum: "text" BuildingName: "text" Name: "text" projectid: "text" bIdProjectInfo: "text" cinitid: "text" pCommunityId: "text"

enablefieldmap 是否需要自动生成fieldmap，默认为false,如果需要启动的时候就生成这设置为true,并且设置
fieldmap,类似elasticsearch mapping中每个字段的类型。

esconfig bug处理

代码中获取binlog的日志处理时，必须要获取数据库名，但是当获取binlog为type query时，是无法获取
数据库名的，此处有bug，导致出现 "Outer adapter write failed" ,且未输出错误日志，修复此bug.

后续计划

增加rabbit MQ的支持
增加redis的支持

源码

源码地址：https://github.com/itmifen/canal

推荐阅读

io
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
io
.NET Core 2.* 开发者指南：全面学习与实践手册

本书《.NET Core 2.* 开发者指南》是面向开发者的全面学习与实践手册，涵盖了从基础到高级的各个层面。书中详细解析了 .NET Core 的核心概念，包括如何创建 .NET Core 网站，并通过视频教程直观展示操作过程。此外，还深入探讨了 Startup 类的作用、项目目录结构的组织方式以及如何在应用中使用静态文件等内容。对于希望深入了解 .NET Core 架构和开发技巧的开发者来说，本书提供了丰富的实践案例和详尽的技术指导。 ... [详细]

蜡笔小新 2024-10-27 13:05:35
io
Java程序设计复习题

1、编写一个Java程序在屏幕上输出“你好！”。programmenameHelloworld.javapublicclassHelloworld{publicst ... [详细]

蜡笔小新 2024-11-22 20:05:03
io
七大策略降低云上MySQL成本

在全球经济放缓和通胀压力下，降低云环境中MySQL数据库的运行成本成为企业关注的重点。本文提供了一系列实用技巧，旨在帮助企业有效控制成本，同时保持高效运作。 ... [详细]

蜡笔小新 2024-11-22 10:13:40
io
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
io
利用Jenkins与SonarQube集成实现高效代码质量检测与优化

本文探讨了通过在 Jenkins 多分支流水线中集成 SonarQube，实现高效且自动化的代码质量检测与优化方法。该方案不仅提高了开发团队的代码审查效率，还确保了软件项目的持续高质量交付。 ... [详细]

蜡笔小新 2024-10-26 13:04:29
io
掌握 esrally 三步骤：高效执行 Elasticsearch 性能测试任务

自从上次发布 esrally 教程已近两个月，期间不断有用户咨询使用过程中遇到的各种问题，尤其是由于测试数据托管在海外 AWS 上，导致下载速度极慢。为此，本文将详细介绍如何通过三个关键步骤高效执行 Elasticsearch 性能测试任务，帮助用户解决常见问题并提升测试效率。 ... [详细]

蜡笔小新 2024-10-24 13:54:30
solr
关于数据库引擎InnoDB和Myisam区别

一生热爱回头太难。在mysql5.5之前，默认使用的是Myisam引擎，5.5之后，默认使用InnoDB引擎。关于二者区别一直是重要的问题 ... [详细]

蜡笔小新 2024-10-16 19:52:13
io
ELK stack 学习记录

ELK日志分析平台学习记录首先ELK主要指elasticsearch、logstash和kibana，三个开源软件组合而成的一套日志平台解决方案。可以将平时收集到的日志，通过前台展 ... [详细]

蜡笔小新 2023-10-13 09:12:39
java
Flume 数据采集组件

目录1、数据收集工具系统产生背景2、专业的数据收集工具2.1、Chukwa2.2、Scribe2.3、Fluentd2.4、Logstash2.5、ApacheFlu ... [详细]

蜡笔小新 2023-10-12 13:31:33
java
MySQL 数据变更后如何实现实时同步至 Elasticsearch

在 MySQL 数据变更后，如何实现与 Elasticsearch 的实时同步是一个常见的需求。本文介绍了通过配置 MySQL 的 Binlog 功能，结合中间件如 Canal 或 Debezium，将数据变更事件实时捕获并同步到 Elasticsearch 中的方法。此外，还探讨了如何处理数据删除操作，确保 Elasticsearch 中的数据与 MySQL 保持一致。文章还简要对比了 VSCode 和 Dev 两种开发环境的优缺点，为开发者提供参考。 ... [详细]

蜡笔小新 2024-11-03 18:24:35
ip
Grafana 9.1.1 正式推出，提升系统性能监控与数据分析效率

grafana,9,1,1,发布,系统,指标, ... [详细]

蜡笔小新 2024-10-22 16:14:58
io
中文分词器elasticsearchanalysisik下载及安装教程

注意：elasticsearch-analysis-ik的版本最好与elasticsearch版本一致1，下载Releasesmedclelasti ... [详细]

蜡笔小新 2024-10-19 20:18:45
java
mysql中通过FIND_IN_SET函数关联表id包含多个值用逗号分隔，通过sql语句查询关联表信息

之所以会用到该函数是因为在写将mysql数据使用logstash同步至es上时发现有的表关联id字段是多个id按逗号分隔，因为是用sql语句查询，不能像 ... [详细]

蜡笔小新 2024-09-30 12:02:50
io
Centos7搭建ELK（Elasticsearch、Logstash、Kibana）教程及注意事项

本文介绍了在Centos7上搭建ELK（Elasticsearch、Logstash、Kibana）的详细步骤，包括下载安装包、安装Elasticsearch、创建用户、修改配置文件等。同时提供了使用华为镜像站下载安装包的方法，并强调了保证版本一致的重要性。 ... [详细]

蜡笔小新 2023-12-10 16:27:21

mobiledu2502881283

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章