热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MySQL源代码解析:二进制日志崩溃恢复机制深入探讨

本文详细解析了MySQL5.7.20版本中二进制日志(binlog)崩溃恢复机制的工作流程。假设使用InnoDB存储引擎,并且启用了`sync_binlog=1`配置,文章深入探讨了在系统崩溃后如何通过binlog进行数据恢复,确保数据的一致性和完整性。

前言

本文主要介绍binlog crash recovery 的过程

假设用户使用 InnoDB 引擎,sync_binlog=1

使用 MySQL 5.7.20 版本进行分析

crash recovery 过程中,binlog 需要保证:

  1. 所有已提交事务的binlog已存在
  2. 所有未提交事务的binlog不存在

两阶段提交

MySQL 使用两阶段提交解决 binlog 和 InnoDB redo log 的一致性的问题

也就是将普通事务当做内部XA事务处理,为每个事务分配一个XID,binlog作为事务的协调者

  • 阶段1:InnoDB redo log 写盘,InnoDB 事务进入 prepare 状态
  • 阶段2:binlog 写盘,InooDB 事务进入 commit 状态

每个事务binlog的末尾,会记录一个 XID event,标志着事务是否提交成功,也就是说,recovery 过程中,binlog 最后一个 XID event 之后的内容都应该被 purge。

InnoDB 日志可能也需要回滚或者提交,这里就不再展开。

binlog 文件的 crash recovery

mysqld_maininit_server_componentsMYSQL_BIN_LOG::openMYSQL_BIN_LOG::open_binlog

binlog recover 的主要过程在 MYSQL_BIN_LOG::open_binlog 中

int MYSQL_BIN_LOG::open_binlog(const char *opt_name)
{/* 确保 index 文件初始化成功 */if (!my_b_inited(&index_file)) {/* There was a failure to open the index file, can&#39;t open the binlog */cleanup();return 1;}/* 找到 index 中第一个 binlog */if ((error&#61; find_log_pos(&log_info, NullS, true/*need_lock_index&#61;true*/))){/* 找到 index 中最后一个 binlog */do{strmake(log_name, log_info.log_file_name, sizeof(log_name)-1); } while (!(error&#61; find_next_log(&log_info, true/*need_lock_index&#61;true*/)));/*打开最后一个binlog&#xff0c;会校验文件头的 magic number "\xfe\x62\x69\x6e"如果 magic number 校验失败&#xff0c;会直接报错退出&#xff0c;无法完成recovery如果确定最后一个binlog没有内容&#xff0c;可以删除binlog 文件再重试*/if ((file&#61; open_binlog_file(&log, log_name, &errmsg)) <0)/*如果 binlog 没有正常关闭&#xff0c;mysql server 可能crash过&#xff0c;我们需要调用 MYSQL_BIN_LOG::recover&#xff1a;a) 找到最后一个 XIDb) 完成最后一个事务的两阶段提交&#xff08;InnoDB commit&#xff09;c) 找到最后一个合法位点因此&#xff0c;我们需要遍历 binlog 文件&#xff0c;找到最后一个合法event集合&#xff0c;并 purge 无效binlog*/if ((ev&#61; Log_event::read_log_event(&log, 0, &fdle,opt_master_verify_checksum)) &&ev->get_type_code() &#61;&#61; binary_log::FORMAT_DESCRIPTION_EVENT &&(ev->common_header->flags & LOG_EVENT_BINLOG_IN_USE_F ||DBUG_EVALUATE_IF("eval_force_bin_log_recovery", true, false))){sql_print_information("Recovering after a crash using %s", opt_name); /* 初始化合法位点 */ valid_pos&#61; my_b_tell(&log);/* 执行recover 过程 &#xff0c;并计算出合法位点 */error&#61; recover(&log, (Format_description_log_event *)ev, &valid_pos);}elseerror&#61;0;if (valid_pos > 0){if (valid_pos }

recover 函数的逻辑很简单&#xff1a;遍历最后一个binlog的所有 event&#xff0c;每次事务结尾&#xff0c;或者非事务event结尾更新 valid_pos(gtid event不更新)。并在一个 hash 中记录所有xid&#xff0c;用于引擎层 recover

int MYSQL_BIN_LOG::recover(IO_CACHE *log, Format_description_log_event *fdle,my_off_t *valid_pos)
{/* 初始化 XID hash&#xff0c;用于记录 binlog 中的 xid */if (! fdle->is_valid() || my_hash_init(&xids, &my_charset_bin, TC_LOG_PAGE_SIZE/3, 0,sizeof(my_xid), 0, 0, MYF(0),key_memory_binlog_recover_exec))goto err1;/* 依次读取 binlog event */while ((ev&#61; Log_event::read_log_event(log, 0, fdle, TRUE))&& ev->is_valid()){if (ev->get_type_code() &#61;&#61; binary_log::QUERY_EVENT &&!strcmp(((Query_log_event*)ev)->query, "BEGIN"))/* begin 代表事务开始 */in_transaction&#61; TRUE;if (ev->get_type_code() &#61;&#61; binary_log::QUERY_EVENT &&!strcmp(((Query_log_event*)ev)->query, "COMMIT")){DBUG_ASSERT(in_transaction &#61;&#61; TRUE);/* commit 代表事务结束 */in_transaction&#61; FALSE;}else if (ev->get_type_code() &#61;&#61; binary_log::XID_EVENT){DBUG_ASSERT(in_transaction &#61;&#61; TRUE);/* xid event 代表事务结束 */in_transaction&#61; FALSE;Xid_log_event *xev&#61;(Xid_log_event *)ev;uchar *x&#61; (uchar *) memdup_root(&mem_root, (uchar*) &xev->xid,sizeof(xev->xid));/* 记录 xid */if (!x || my_hash_insert(&xids, x))goto err2;}/*如果不在事务中&#xff0c;且不是gtid event&#xff0c;则更新 valid_pos显然&#xff0c;如果在事务中&#xff0c;最后一段 event 不是一个完整事务&#xff0c;pos并不合法*/if (!log->error && !in_transaction &&!is_gtid_event(ev))*valid_pos&#61; my_b_tell(log);}/*存储引擎recover所有已经记录 XID 的事务必须在存储引擎中提交未记录 XID 的事务必须回滚*/if (total_ha_2pc > 1 && ha_recover(&xids))goto err2;

binlog index 的 crash recovery

为了保证 binlog index 的 crash safe&#xff0c;MySQL 引入了一个临时文件 crash_safe_index_file

新的 binlog_file_name 写入 binlog_index_file 流程如下&#xff1a;

  • 创建临时文件 crash_safe_index_file
  • 拷贝 binlog_index_file 中的内容到 crash_safe_index_file
  • 新的 binlog_file_name 写入 crash_safe_index_file
  • 删除 binlog_index_file
  • 重命名 crash_safe_index_file 到 binlog_index_file

这个流程保证了在任何时候crash&#xff0c;binlog_index_file 和 crash_safe_index_file 至少有一个可用

这样再recover 时只要判断这两个文件是否可用&#xff0c;如果 binlog_index_file 可用则无需特殊处理&#xff0c;如果binlog_index_file 不可用则重命名 crash_safe_index_file 到 binlog_index_file

binlog index 的 recover 过程主要在 bool MYSQL_BIN_LOG::open_index_file 中

显然&#xff0c;open_indix_file 在 open_binlog 之前

mysqld_maininit_server_componentsMYSQL_BIN_LOG::open_index_file


bool MYSQL_BIN_LOG::open_index_file(const char *index_file_name_arg,const char *log_name, bool need_lock_index)
{/* 拼接 index_file_name */fn_format(index_file_name, index_file_name_arg, mysql_data_home,".index", opt); /* 拼接 crash_safe_index_file_name */if (set_crash_safe_index_file_name(index_file_name_arg))/*recover 主要体现在这里检查 index_file_name 和 crash_safe_index_file_name 是否存在如果 index_file_name 不存在 crash_safe_index_file_name 存在&#xff0c;那么将 crash_safe_index_file_name 重命名为 index_file_name*/if (my_access(index_file_name, F_OK) &&!my_access(crash_safe_index_file_name, F_OK) &&my_rename(crash_safe_index_file_name, index_file_name, MYF(MY_WME))){sql_print_error("MYSQL_BIN_LOG::open_index_file failed to ""move crash_safe_index_file to index file.");error&#61; true;goto end;}}

新的 binlog_file_name 写入 binlog_index_file 的过程在 MYSQL_BIN_LOG::add_log_to_index

int MYSQL_BIN_LOG::add_log_to_index(uchar* log_name,size_t log_name_len, bool need_lock_index)
{/* 创建 crash_safe_index_file */if (open_crash_safe_index_file())/* 拷贝 index_file 内容到 crash_safe_index_file */if (copy_file(&index_file, &crash_safe_index_file, 0))/* 写入 binlog_file_name */if (my_b_write(&crash_safe_index_file, log_name, log_name_len) ||my_b_write(&crash_safe_index_file, (uchar*) "\n", 1) ||flush_io_cache(&crash_safe_index_file) ||mysql_file_sync(crash_safe_index_file.file, MYF(MY_WME)))/*函数内部先 delete binlog_index_file 再 rename crash_safe_index_file如果 delete 到 rename 之间发生 crash&#xff0c; crash_safe_index_file 会在 recover过程中 rename 成 binlog_index_file*/if (move_crash_safe_index_file_to_index_file(need_lock_index))}

总结

MySQL 解决了binlog crash safe 的问题&#xff0c;但是 relay log 依然不保证 crash safe。

relay log 结构和 binlog 一致&#xff0c;可以借鉴 binlog crash safe 的方式&#xff0c;计算出 valid_pos&#xff0c;将 valid_pos之后的 event 全部purge。



推荐阅读
  • 深入解析Java枚举及其高级特性
    本文详细介绍了Java枚举的概念、语法、使用规则和应用场景,并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual),欢迎Star并持续关注。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 丽江客栈选择问题
    本文介绍了一道经典的算法题,题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈,并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]
  • 本文介绍 SQL Server 的基本概念和操作,涵盖系统数据库、常用数据类型、表的创建及增删改查等基础操作。通过实例帮助读者快速上手 SQL Server 数据库管理。 ... [详细]
  • 本文介绍了如何利用Python进行批量图片尺寸调整,包括放大和等比例缩放。文中提供了详细的代码示例,并解释了每个步骤的具体实现方法。 ... [详细]
  • 本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头,包括代码示例和常见问题的解决方案。 ... [详细]
  • Nginx 反向代理与负载均衡实验
    本实验旨在通过配置 Nginx 实现反向代理和负载均衡,确保从北京本地代理服务器访问上海的 Web 服务器时,能够依次显示红、黄、绿三种颜色页面以验证负载均衡效果。 ... [详细]
  • This request pertains to exporting the hosted_zone_id attribute associated with the aws_rds_cluster resource in Terraform configurations. The absence of this attribute can lead to issues when integrating DNS records with Route 53. ... [详细]
  • 本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互,涵盖了GET、POST、PUT和DELETE请求的实现,并展示了如何处理JSON响应。 ... [详细]
  • 本文探讨了如何通过预处理器开关选择不同的类实现,并解决在特定情况下遇到的链接器错误。 ... [详细]
  • 中科院学位论文排版指南
    随着毕业季的到来,许多即将毕业的学生开始撰写学位论文。本文介绍了使用LaTeX排版学位论文的方法,特别是针对中国科学院大学研究生学位论文撰写规范指导意见的最新要求。LaTeX以其精确的控制和美观的排版效果成为许多学者的首选。 ... [详细]
  • 本题探讨了在大数据结构背景下,如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制,并详细分析了解决方案中的关键步骤。 ... [详细]
  • 本文深入探讨了Memcached的内存管理机制,特别是其采用的Slab Allocator技术。该技术通过预分配不同大小的内存块来有效解决内存碎片问题,并确保高效的数据存储与检索。文中详细描述了Slab Allocator的工作原理、内存分配流程以及相关的优化策略。 ... [详细]
  • NTP服务器配置详解:原理与工作模式
    本文深入探讨了网络时间协议(NTP)的工作原理及其多种工作模式,旨在帮助读者全面理解NTP的配置参数和应用场景。NTP是基于RFC 1305的时间同步标准,广泛应用于分布式系统中,确保设备间时钟的一致性。 ... [详细]
author-avatar
彼岸花芬芳
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有