作者:手机用户2502883723 | 来源:互联网 | 2022-12-31 13:33
大数据常用同步工具一、离线数据同步DataX阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单,操作简单通常只需要两步;创
大数据常用同步工具
一、离线数据同步 DataX 阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单,操作简单通常只需要两步; 创建作业的配置文件(json格式配置reader,writer); 启动执行配置作业。 非常适合离线数据,增量数据可以使用一些编码的方式实现, 缺点:仅仅针对insert数据比较有效,update数据就不适合。
缺乏对增量更新的内置支持,因为DataX的灵活架构,可以通过shell脚本等方式方便实现增量同步。
参考资料: github地址:https://github.com/alibaba/DataX dataX3.0介绍:https://www.jianshu.com/p/65c440f9bce1 datax初体验:https://www.imooc.com/article/15640 文档:https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 地址:http://sqoop.apache.org/ Sqoop导入:导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。
Sqoop导出:导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。
Sqoop支持全量数据导入和增量数据导入(增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式)),同时可以指定数据是否以并发形式导入。 Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle的Spoon有丰富的Steps可以组装开发出满足多种复杂应用场景的数据集成作业,方便实现全量、增量数据同步。缺点是通过定时运行,实时性相对较差。 NiFi Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。
它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。 NiFi基于Web方式工作,后台在服务器上进行调度。 用户可以为数据处理定义为一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。 几个核心概念: Nifi 的设计理念接近于基于流的编程 Flow Based Programming。
FlowFile:表示通过系统移动的每个对象,包含数据流的基本属性 FlowFile Processor(处理器):负责实际对数据流执行工作 Connection(连接线):负责不同处理器之间的连接,是数据的有界缓冲区 Flow Controller(流量控制器):管理进程使用的线程及其分配 Process Group(过程组):进程组是一组特定的进程及其连接,允许组合其他组件创建新组件 参考资料 Nifi简介及核心概念整理 官方网站:http://nifi.apache.org/index.html 二、实时数据同步 实时同步最灵活的还是用kafka做中间转发,当数据发生变化时,记录变化到kafka,需要同步数据的程序订阅消息即可,需要研发编码支持。这里说个mysql数据库的同步组件,阿里的canal和otter canal https://github.com/alibaba/canal 数据抽取简单的来说,就是将一个表的数据提取到另一个表中。有很多的ETL工具可以帮助我们来进行数据的抽取和转换,ETL工具能进行一次性或者定时作业抽取数据,不过canal作为阿里巴巴提供的开源的数据抽取项目,能够做到实时抽取,原理就是伪装成mysql从节点,读取mysql的binlog,生成消息,客户端订阅这些数据变更消息,处理并存储。下面我们来一起搭建一下canal服务 早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。
不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此开启了一段新纪元。 ps. 目前内部版本已经支持mysql和oracle部分版本的日志解析,当前的canal开源版本支持5.7及以下的版本(阿里内部mysql 5.7.13, 5.6.10, mysql 5.5.18和5.1.40/48) 基于日志增量订阅&消费支持的业务: 数据库镜像 数据库实时备份 多级索引 (卖家和买家各自分库索引) search build 业务cache刷新 价格变化等重要业务消息 otter https://github.com/alibaba/otter otter是在canal基础上又重新实现了可配置的消费者,使用otter的话,刚才说过的消费者就不需要写了,而otter提供了一个web界面,可以自定义同步任务及map表。非常适合mysql库之间的同步。 另外:otter已在阿里云推出商业化版本 数据传输服务DTS, 开通即用,免去部署维护的昂贵使用成本。
DTS针对阿里云RDS、DRDS等产品进行了适配,解决了Binlog日志回收,主备切换、VPC网络切换等场景下的同步高可用问题。同时,针对RDS进行了针对性的性能优化。出于稳定性、性能及成本的考虑,强烈推荐阿里云用户使用DTS产品。
MYSQL有那些专用的数据库同步软件?
HKROnline SyncNavigator 是一款 SQL Server,MySQL 数据库同步软件。它为您提供一种简单智能的方式完成复杂的数据库数据同步,分发操作。
SyncNavigator 可以帮助您快速的完成数据库的数据同步。
不需要专业的数据库知识,只需要进行简单的设置即可实现数据库的同步,分发以及热备份。即使是大容量数据库也能快速完成同步。它对数据库的支持非常完整,您可以将 SQL Server/MySQL 数据库同步到其他不同版本的数据库上而不需要考虑其数据库结构。它支持断点续传功能,即使出现网络中断或者数据库故障也能继续同步数据库,并确保数据完整性。
如何对MySQL数据库中的数据实时同步?
具体操作:
1、在分析型数据库上创建目标表,数据更新类型为实时写入,字段名称和MySQL中的建议均相同;
2、在阿里云数据传输的控制台上创建数据订阅通道,并记录这个通道的ID;
3、 配置dts-ads-writer/app.conf文件,配置方式如下:所有配置均保存在app.conf中,运行前请保证配置正确;修改配置后,请重启writer,基本配置:
注意事项:
1、RDS for MySQL表和分析型数据库中表的主键定义必须完全一致;如果不一致会出现数据不一致问题。如果需要调整RDS/分析型数据库表的主键,建议先停止writer进程;
2、一个插件进程中分析型数据库db只能是一个,由adsJdbcUrl指定;
3、一个插件进程只能对应一个数据订阅通道;如果更新通道中的订阅对象时,需要重启进程。