当前位置: 开发笔记 > 后端 > 正文

数据迁移_数据迁移如何快速迁移

作者：agree_6398026768 | 来源：互联网 | 2023-07-18 18:43

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数据迁移-如何快速迁移相关的知识，希望对你有一定的参考价值。摘要在上一篇中

篇首语：本文由编程笔记#小编为大家整理，主要介绍了数据迁移 - 如何快速迁移相关的知识，希望对你有一定的参考价值。

摘要
在上一篇中我们介绍了数据迁移的套路，但是没有介绍具体的方案，这篇着重介绍下具体的数据迁移方案

一. 设计目标
设计一个数据迁移的方案，需要实现以下目标

迁移速度
qps 需要达到1k，这样能保证1亿的数据能够在1~2天内跑完

迁移qps可控
迁移有可能对线上服务有影响，需要可动态调整qps

数据完整，不丢失
不能遗漏数据，虽然事后我们有数据校验的过程，但是设计数据迁移方案时，需要尽可能的包装数据不丢失。

进度可控
迁移过程可中断，可重试。比如先迁移10分之一的数据，再继续来

二. 架构设计
数据迁移任务大致分为3个步骤，如下图所示
因为有迁移速度的要求，我们将每个步骤进行分解，确保每个部分可以异步化，并发处理。这样可以提升速度。

遍历数据

完整遍历老的数据库。不同的数据库有不同的方法，比如对于mysql,可以利用现成的binlog，其中就有全量的数据。

对于其他数据库，通常有两种方案

单线程游标遍历
单向遍历，这样不用进行线程之间的数据同步管理，实现比较简单。为什么不直接查数据记录呢，因为相比较于游标，查数据记录数据量比较大，网络开销大。游标一次可以拉取1000个数，而只占用很小的数据大小，然后在内存中分配。单个值获取耗时远小于1ms，所以即使是单线程，遍历数据这块的qps也能轻松达到1k以上。

同时因为是顺序遍历，所以可以保证数据不会丢。 可以可以将成功遍历完，写入到任务队列的数据记录到某个存储，比如redis中，这样可以保证游标中断，或者服务重启后，可以从这个key中继续遍历，这样就实现了迁移的可中断
2. 多线程分块遍历
需要提前对数据进行分片，保证每块不冲突。比如所有的数据是按照A~Z来分布的。那可以开26的线程，分别负责遍历A,Z。因为不同的数据

任务队列

任务队列的要求就是高并发的写，能够支持较长时间的存储。kafka,rocketmq等消息队列都能满足，
qps都能达到万级别以上，都能满足当前方案的性能要求。

同时可以使用批量提交，来进一步提升写入速度。

写入新库

写入新库的操作不要求有顺序性，所以只要支持水平扩展即可无限提升速度。

三. 具体实现
需要结合具体的业务场景和公司已有的基础设施来选用具体的实现方案。

场景一：数据量很少，1千万以内

杀鸡焉用牛刀，使用本地线程池来实现即可，不需要额外的任务队列。简单高效

场景二: 数据量比较大，公司里已经有离线数据处理基础设施

数据库 to kafka 组件，将数据写入到kafka，然后写处理job扔到flink中跑。

场景三: 数据量比较大，公司无基础设施

遍历老数据库，写入到消息队列中，然后监听消息，查询数据，写入到新库中。也很容易实现。

推荐阅读

java
深入剖析JVM垃圾回收机制

本文详细探讨了Java虚拟机（JVM）中的垃圾回收机制，包括其意义、对象判定方法、引用类型、常见垃圾收集算法以及各种垃圾收集器的特点和工作原理。通过理解这些内容，开发人员可以更好地优化内存管理和程序性能。 ... [详细]

蜡笔小新 2024-12-20 17:24:41
java
字节跳动夏季招聘面试经验分享

本文详细记录了字节跳动夏季招聘的面试经历，涵盖了一、二、三轮面试的技术问题及项目讨论，旨在为准备类似面试的求职者提供参考。 ... [详细]

蜡笔小新 2024-12-18 09:31:48
java
Web与游戏开发的主要差异

本文探讨了Web开发与游戏开发之间的主要区别，旨在帮助开发者更好地理解两种开发领域的特性和需求。文章基于作者的实际经验和网络资料整理而成。 ... [详细]

蜡笔小新 2024-12-18 08:26:30
pip
UNIX进程间通信（IPC）详解

本文深入探讨了UNIX/Linux系统中的进程间通信（IPC）机制，包括消息传递、同步和共享内存等。详细介绍了管道（Pipe）、有名管道（FIFO）、Posix和System V消息队列、互斥锁与条件变量、读写锁、信号量以及共享内存的使用方法和应用场景。 ... [详细]

蜡笔小新 2024-12-20 10:14:51
java
Python面试题精粹

本文档汇总了Python编程的基础与高级面试题目，涵盖语言特性、数据结构、算法以及Web开发等多个方面，旨在帮助开发者全面掌握Python核心知识。 ... [详细]

蜡笔小新 2024-12-19 20:26:25
pip
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
java
深入解析Volatile机制及其优化与应用

本文详细探讨了Java中Volatile关键字的工作原理、优化技巧及其在实际开发中的应用场景，特别是在提高多线程环境下数据可见性和减少锁竞争方面的优势。 ... [详细]

蜡笔小新 2024-12-19 10:41:14
java
最强阿里及大厂350道面试大全：框架+数据库+并发+开源+微服务

前言无论是对于刚入行工作还是已经工作几年的java开发者来说，面试求职始终是你需要直面的一件事情。首先梳理自己的知识体系，针对性准备，会有事半功倍的效果。我们往往会把重点放在技术上 ... [详细]

蜡笔小新 2024-12-18 15:33:00
go
MySQL锁机制详解

本文深入探讨了MySQL中的锁机制，包括表级锁、行级锁以及元数据锁，通过实例详细解释了各种锁的工作原理及其应用场景。同时，文章还介绍了如何通过锁来优化数据库性能，避免常见的并发问题。 ... [详细]

蜡笔小新 2024-12-18 14:24:14
pip
Django Token 认证详解与 HTTP 401、403 状态码的区别

本文详细介绍了如何在 Django 中配置和使用 Token 认证，并解释了 HTTP 401 和 HTTP 403 状态码的区别。通过具体的代码示例，帮助开发者理解认证机制及权限控制。 ... [详细]

蜡笔小新 2024-12-20 15:43:37
缓存
解析云主机流量及其重要性

本文详细阐述了云主机流量的概念，探讨其对网站性能和安全的关键影响，并提供了优化配置的实用建议。 ... [详细]

蜡笔小新 2024-12-20 15:31:40
java
优化Spring Boot项目，大幅提升并发性能

本文探讨了如何通过一系列技术手段提升Spring Boot项目的并发处理能力，解决生产环境中因慢请求导致的系统性能下降问题。 ... [详细]

蜡笔小新 2024-12-19 21:07:12
java
使用WinForms 实现 RabbitMQ RPC 示例

本文通过两个WinForms应用程序演示了如何使用RabbitMQ实现远程过程调用（RPC）。一个应用作为客户端发送请求，另一个应用作为服务端处理请求并返回响应。 ... [详细]

蜡笔小新 2024-12-19 19:15:17
cache
深入解析Spring Cloud微服务架构与分布式系统实战

本文详细介绍了Spring Cloud在微服务架构和分布式系统中的应用，结合实际案例和最新技术，帮助读者全面掌握微服务的实现与优化。 ... [详细]

蜡笔小新 2024-12-19 16:02:50
java
Spring Cloud学习指南：深入理解微服务架构

本文介绍了微服务架构的基本概念及其在Spring Cloud中的实现。讨论了微服务架构的主要优势，如简化开发和维护、快速启动、灵活的技术栈选择以及按需扩展的能力。同时，也探讨了微服务架构面临的挑战，包括较高的运维要求、分布式系统的复杂性、接口调整的成本等问题。最后，文章提出了实施微服务时应遵循的设计原则。 ... [详细]

蜡笔小新 2024-12-19 09:25:36