作者:mobiledu2502909131 | 来源:互联网 | 2024-11-11 18:17
在KingbaseES集群中,当主节点发生故障时,备节点的repmgrd服务往往无法自动恢复。本文探讨了该问题的成因,并提出了一种有效的解决方案,通过优化配置参数和增强监控机制,确保备节点能够迅速接管主节点的功能,提高系统的高可用性和稳定性。
问题描述
主机故障后,备机repmgrd故障,无法进行恢复。
解决方案
预期现象,repmgrd故障后启动,需要满足两个条件:
1. 本地数据库正常
2. 本地数据库中记录的upstream_node正常,一般指主库;
此时集群已经处于异常状态,repmgrd故障后如果立即恢复,也无法进行集群的恢复,此时的repmgrd无法获取之前集群的状态,所以不能够直接启动repmgrd,防止对集群造成数据的丢失和其他异常的出现。
在repmgrd故障的节点查看hamgr.log,可以看到相关信息打印如图: