当前位置: 开发笔记 > 编程语言 > 正文

从数据库启动日志看PostgreSQL的崩溃恢复

作者：mobiledu2502886077 | 来源：互联网 | 2023-08-30 15:55

点击阅读文章

作者：吴聪

背景

今天碰到朋友问我个问题，数据库启动时日志中的这个“invalid record length at 3/EAA68B8: wanted 24, got 0”里面的wanted 24是啥意思。

而数据库正常启动时的日志其实并不是上面那样，而是如下图所示：

上图的日志是因为数据库异常关闭后重启导致的，例如进程直接被kill。

为了搞清楚上面日志中的那条记录是啥意思，我们来一起研究下数据库异常关闭后恢复的过程。

崩溃恢复概述

首先我们要清楚数据库异常关闭和正常的停库有啥区别。当数据库异常关闭时，数据库的共享缓冲区中的数据还没有来得及刷到磁盘中，必然是会丢失，这个时候启动数据库便是从不正常的状态去启动，也就是我们要研究的崩溃恢复。

之前我也介绍过checkpoint相关的内容，当PostgreSQL数据库崩溃恢复时，会以最近的checkpoint为基础，不断应用这之后的XLOG日志。为了更好地理解PostgreSQL数据库从崩溃中恢复的过程，我们需要弄清楚以下几个问题：

数据库操作系统如何识别到自己是非正常状态（崩溃状态）
数据库如何找到合适的checkpoint作为基础
为什么应用XLOG日志可以恢复数据库数据
数据库如何应用XLOG日志

数据库状态

在pg中数据库状态分为以下几种（可以通过控制文件查看数据库状态）：

typedef enum DBState{ DB_STARTUP = 0,/*数据库启动*/ DB_SHUTDOWNED,/*数据库正常关闭*/ DB_SHUTDOWNED_IN_RECOVERY,/*数据库在恢复时关闭*/ DB_SHUTDOWNING,/*数据库启动到正常关闭过程中崩溃*/ DB_IN_CRASH_RECOVERY,/*数据库在恢复过程中崩溃*/ DB_IN_ARCHIVE_RECOVERY,/*数据库处于归档恢复*/ DB_IN_PRODUCTION/*数据库处于正常工作状态，等待接受事务处理*/} DBState;

当数据库正常关闭时，数据库状态便是shut down，如果是异常关闭，可能会如下所示：

Database cluster state: in production

而每次当PostgreSQL数据库启动时，会首先读取控制文件获取数据库的状态，如果为非正常关闭状态，则会执行崩溃恢复逻辑。

chekpoint相关结构

当数据库进行崩溃恢复时，因为需要恢复异常关闭时丢失的共享内存中的数据，所以需要通过checkpoint来作为基础，不断的应用wal日志来恢复。而checkpoint相关的信息在pg中是存放在控制文件中的，由ControlFileData结构体存储：

typedef struct ControlFileData{ ... XLogRecPtr checkPoint; /*指向最近一次的检查点位置*/ XLogRecPtr prevCheckPoint; /*指向最近一次检查点的前一次检查点的位置*/ CheckPoint checkPointCopy; /*最近一次检查点控制信息的副本*/ XLogRecPtr minRecoveryPoint; /*归档恢复时必须恢复到的最小LSN*/ XLogRecPtr backupStartPoint; /*在线备份时进行的检查点开始LSN*/ XLogRecPtr backupEndPoint; /*在线备份时进行的检查点结束LSN*/ bool backupEndRequired; /* 用于判断是否基于正确的在线备份集恢复*/ TimeLineID minRecoveryPointTLI; /* 必须恢复到的最小时间线 */ ... pg_crc32 crc;} ControlFileData;

例如下图所示：

一般来说都会选取最近一次的checkpoint作为恢复点，但是会存在一种情况：在执行最近一次的checkpoint是数据库异常关闭了，那么这个检查点可能是不完整的。因此一般还会多存储一个检查点的位置，即prevCheckPoint。

在数据库崩溃恢复过程中，PostgreSQL规定了三个在启动之前必须恢复到的最小位点：

minRecoveryPoint：
数据库在归档恢复过程中，minRecoveryPoint被更新为最新被刷新到磁盘的LSN。每次数据库启动时必须已经replay该位置的XLOG日志记录。
backupStartPoint：
数据库在线备份开始时，会调用pg_start_backup函数执行一次checkpoint，并生成backup_label文件。当使用在线备份集进行恢复时，backupStartPoint就是上述checkpoint记录对应的LSN，当达到了该LSN，该值置为0，在置为0之前，数据库不能启动。该值被记录在backup_label文件中如下，直到在线备份结束，pg_stop_backup将该文件删除。这样就保证了在备份过程中，数据库崩溃了，可以默认从备份开始时的日志检查点开始恢复。
backupEndPoint：
当数据库从一个备库做的在线备份集进行恢复时，backupEndPoint表示备份结束的LSN，当达到该LSN，该值置为0，在置为0之前，数据库不能启动。

崩溃恢复具体过程：

每次postmaster进程启动时，都会调用StartupXLOG函数对数据库崩溃进行恢复。

其恢复过程大致为：

初始化内存，启动后台进程。
pg在启动时读取pg_control文件内容。如果state为’in production’，PostgreSQL将进入恢复模式，因为这意味着数据库没有正常停止；如果为’shutdown’，将进入正常启动模式。
pg从相应的WAL段文件中读取最新的检查点记录（位于pg_control文件中），并从记录中获取重做点。如果最新的检查点记录无效（invalid），pg将读取前一个检查点的记录。如果两个记录都不可读，将放弃恢复。注意，从11版本开始不会再存储前一个检查点的记录信息。
使用合适的资源管理器从重做点开始按顺序读取和重放WAL记录，直到最新WAL文件的最后位置。当遇到备份块时，无论其LSN如何，都会将覆盖相应表的页面。否则仅当此wal记录LSN>相应页面的pd_lsn时，才会重放该WAL记录。

崩溃恢复日志

介绍了这么多，我们再来看看为什么在崩溃恢复时数据库的日志中输出内容是那样的。

因为检测到数据库为异常状态，所以需要从最近一次检查点开始按顺序读取wal日志：

当检测到没有wal日志可以重放时，便会抛出前面的提示：“invalid record length at 3/EAA6580: wanted 24, got 0”。那你可能要问为啥为wanted 24，不是25，26。。。

那我们接着看：

显然这里的24就是SizeOfXLogRecord，其计算方法如下：

这里需要注意，XLogRecord结构体中有2bytes的填充位。

总结

一个简单的数据库启动日志竟然包含着这么多知识！

参考链接：

https://www.pgcon.org/2012/schedule/attachments/258_212_Internals%20Of%20PostgreSQL%20Wal.pdf

http://mysql.taobao.org/monthly/2017/05/03/

src/backend/access/transam/xlog.c

src/backend/access/transam/xlogreader.c

规模空前，再创历史 | 2020 PG亚洲大会圆满结束

PG ACE计划的正式发布

三期PostgreSQL国际线上沙龙活动的举办

六期PostgreSQL国内线上沙龙活动的举办

中国PostgreSQL分会与腾讯云战略合作协议签订

PostgreSQL 13.0 正式版发布通告

深度报告：开源协议那些事儿

从“非主流”到“潮流”，开源早已值得拥有

Oracle中国正在进行新一轮裁员，传 N+6 补偿

PostgreSQL与MySQL版权比较

新闻|Babelfish使PostgreSQL直接兼容SQL Server应用程序

四年三冠，PostgreSQL再度荣获“年度数据库”

更多新闻资讯，行业动态，技术热点，请关注中国PostgreSQL分会官方网站

https://www.postgresqlchina.com

中国PostgreSQL分会生态产品

https://www.pgfans.cn

中国PostgreSQL分会资源下载站

https://www.postgreshub.cn

点赞、在看、分享、收藏

推荐阅读

default
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
default
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
copy
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
text
Cacti 数据库错误：SQL 查询失败，错误代码 145

在使用 Cacti 进行监控时，发现已运行的转码机未产生流量，导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志，发现数据库中存在 SQL 查询失败的问题，错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致，建议对相关表进行修复操作以恢复监控功能。 ... [详细]

蜡笔小新 2024-11-11 12:57:49
default
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
post
揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节

揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]

蜡笔小新 2024-11-03 18:33:00
post
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
text
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
select
SQL 批量导入时管理外键约束

本文介绍如何在将数据库从服务器复制到本地时，处理因外键约束导致的数据插入失败问题。 ... [详细]

蜡笔小新 2024-11-12 19:05:11
default
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
get
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
text
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
select
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32
spring
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30

mobiledu2502886077

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章