Heartbeat的介绍及工作原理

作者：爱的伤痕累2602882347_111 | 来源：互联网 | 2023-09-13 13:08

一、HeartBeat的概述Heartbeat项目是Linux-HA工程的一个组成部分，自1999年开始到现在，发布了众多版本，是目前开

一、HeartBeat的概述

Heartbeat 项目是 Linux-HA 工程的一个组成部分&＃xff0c;自1999年开始到现在&＃xff0c;发布了众多版本&＃xff0c;是目前开源Linux-HA项目最成功的一个例子&＃xff0c;它实现了一个高可用集群系统。心跳服务和集群通信是高可用集群的两个关键组件&＃xff0c;在 Heartbeat 项目里&＃xff0c;由 heartbeat 模块实现了这两个功能&＃xff1a;心跳监测部分和资源接管部分。

心跳监测可以通过网络链路和串口进行&＃xff0c;而且支持冗余链路&＃xff0c;它们之间相互发送报文来告诉对方自己当前的状态&＃xff0c;如果在指定的时间内未收到对方发送的报文&＃xff0c;那么就认为对方失效&＃xff0c;这时需启动资源接管模块来接管运行在对方主机上的资源或者服务。

二、HeartBeat的作用

通过HeartBeat&＃xff0c;可以将资源&＃xff08;IP以及程序服务等资源&＃xff09;从一台已经故障的计算机快速转移到另一台正常运转的机器上继续提供服务&＃xff0c;一般称之为高可用的服务。在实际的生产应用场景中&＃xff0c;heartbeat的功能和另一个高可用的开源软件keepalived有很多的相同之处&＃xff0c;在我们实际的生产业务中也是有区别的。

三、HeartBeat的工作原理

通过修改Heartbeat的软件的配置文件&＃xff0c;可以制定那一台Heartbeat服务器作为主服务器&＃xff0c;则另一台将自动成为热备服务器。然后在热备服务器上配置Heartbeat

守护程序来监听来自主服务器的心跳消息。如果热备服务器在指定时间内为监听到来自主服务器的心跳&＃xff0c;就会启动故障转义程序&＃xff0c;并取得主服务器上的相关资源服务的所有权&＃xff0c;接替主服务器继续不间断的提供服务&＃xff0c;从而达到资源以及服务高可用的目的。

以上的描述heartbeat的主备模式&＃xff0c;heartbeat还支持主主模式&＃xff0c;即两台服务器互为主备&＃xff0c;这是他们之间还会互相发送报文来告诉对方自己的当前的状态&＃xff0c;如果在指定的时间内未收到对方发送的心跳报文&＃xff0c;那么&＃xff0c;一方就会认为对方失效或者是已经宕机了&＃xff0c;这时每个运行正常的主机就会启动自身的资源接管模块来接管运行在对方主机上的资源或者是服务&＃xff0c;继续为用户提供服务。一般情况下&＃xff0c;可以较好的实现一台主机故障后&＃xff0c;企业业务能够不间断的持续的提供服务。注意&＃xff1a;所谓的业务不间断&＃xff0c;在故障转移期间也是需要切换时间的&＃xff0c;heartbeat的切换时间是5-20秒。

1、切换的常见条件

服务器宕机
Heartbeat服务本故障
中间的连接线路故障

应用服务故障则不会产生切换&＃xff0c;可以通过服务宕机把heartbeat服务停掉。

2、heartbeat的心跳连接

　　讲过上面的描述&＃xff0c;要部署heartbeat服务&＃xff0c;至少需要两台主机才能完成。那么&＃xff0c;要实现高可用服务&＃xff0c;这两台主机之间&＃xff0c;是如何做到互相通信互相监控的呢&＃xff1f;

　　下面是两台heartbeat主机之间通信的一些常用的可行的方法&＃xff1a;

串行电缆&＃xff0c;即所谓的串口&＃xff08;首选&＃xff0c;缺点是距离不能太远&＃xff09;
一根以太网电缆量网口直连&＃xff08;生产环境中常用的方式&＃xff09;
以太网电缆&＃xff0c;通过交换机等网络设备连接&＃xff08;次选&＃xff0c;原因是增加了故障点&＃xff0c;不好排查故障&＃xff0c;同时&＃xff0c;线路不是专用的心跳线&＃xff0c;容易受其他数据传输的影响&＃xff0c;导致心跳报文发送问题&＃xff09;

3、Heartbeat裂脑

什么是裂脑&＃xff1f;

由于两台高可用服务器之间在指定的时间内&＃xff0c;无法互相检测到对方心跳而各自启动故障转移功能&＃xff0c;取得了资源以及服务的所有权&＃xff0c;而此时的两台高可用服务器对都还活着并作正常运行&＃xff0c;这样就会导致同一个IP湖综合服务在两端同时启动而发生冲突的严重问题&＃xff0c;最严重的就是两台主机同时占用一个VIP的地址&＃xff0c;当用户写入数据的时候可能会分别写入到两端&＃xff0c;这样可能会导致服务器两端的数据不一致或造成数据的丢失&＃xff0c;这种情况就本成为裂脑&＃xff0c;也有的人称之为分区集群或者大脑垂直分隔导致裂脑发生的原因&＃xff1a;　　

一般来说裂脑的发生&＃xff0c;主要是由以下的几个原因导致的&＃xff1a;

高可用服务器对之间心跳线路故障&＃xff0c;导致无法正常的通信。原因比如&＃xff1a;

心跳线本身就坏了&＃xff08;包括断了&＃xff0c;老化&＃xff09; 网卡以及相关驱动坏了,IP配置及冲突问题心跳线间连接的设备故障&＃xff08;交换机的故障或者是网卡的故障&＃xff09; 仲裁的服务器出现问题

高可用服务器对上开启了防火墙阻挡了心跳消息的传输
高可用服务器对上的心跳网卡地址等信息配置的不正确&＃xff0c;导致发送心跳失败。
其他服务配置不当等原因&＃xff0c;如心跳的方式不同&＃xff0c;心跳广播冲突&＃xff0c;软件出现了BUG等

防止脑裂发生的方法总结&＃xff1a;

　　发生脑裂的时候&＃xff0c;对业务的影响是及其严重的&＃xff0c;有的时候甚至是致命的。如&＃xff1a;两台高可用的服务器对之间发生脑裂&＃xff0c;导致互相竞争同一个IP资源&＃xff0c;就如同我们局域网内常见的IP地址冲突一样&＃xff0c;两个机器就会有一个或者两个不正常&＃xff0c;影响用户正常访问服务器。如果是应用在数据库或者是存储服务这种极重要的高可用上&＃xff0c;那就导致用户发布的数据间断的写在两台服务器上的恶果&＃xff0c;最终数据恢复及困难或者是难已恢复。实际的生产环境中&＃xff0c;我们可以从以下几个方面来防止裂脑的发生&＃xff1a;

同时使用串行电缆和以太网电缆连接&＃xff0c;同时用两条心跳线路&＃xff0c;这样一条线路坏了&＃xff0c;另一个线路还是好的&＃xff0c;依然能传送消息&＃xff08;推荐的&＃xff09;
检测到裂脑的时候强行的关闭一个心跳节点&＃xff08;需要特殊的节点支持&＃xff0c;如stonith&＃xff0c;fence&＃xff09;&＃xff0c;相当于程序上备节点发现心跳线故障&＃xff0c;发送关机命令到主节点。
做好对裂脑的监控报警&＃xff08;如邮件以及手机短信等&＃xff09;&＃xff0c;在问题发生的时候能够人为的介入到仲裁&＃xff0c;降低损失。当然&＃xff0c;在实施高可用方案的时候&＃xff0c;要根据业务的实际需求确定是否能够容忍这样的损失。对于一般的网站业务&＃xff0c;这个损失是可控的&＃xff08;公司使用&＃xff09;
启用磁盘锁。正在服务一方锁住共享磁盘&＃xff0c;脑裂发生的时候&＃xff0c;让对方完全抢不走共享的磁盘资源。但使用锁磁盘也会有一个不小的问题&＃xff0c;如果占用共享盘的己方不主动解锁&＃xff0c;另一方就永远得不到共享磁盘。现实中介入服务节点突然死机或者崩溃&＃xff0c;另一方就永远不可能执行解锁命令。后备节点也就接管不了共享的资源和应用服务。于是有人在HA中涉及了“智能”锁&＃xff0c;正在服务的一方只在发现心跳线全部断开时才启用磁盘锁&＃xff0c;平时就不上锁了
报警报在服务器接管之前&＃xff0c;给人员处理留足够的时间就是1分钟内报警了&＃xff0c;但是服务器不接管&＃xff0c;而是5分钟之后接管&＃xff0c;接管的时间较长。数据不会丢失&＃xff0c;但就是会导致用户无法写数据。
报警后&＃xff0c;不直接自动服务器接管&＃xff0c;而是由人员接管。
增加仲裁的机制&＃xff0c;确定谁该获得资源&＃xff0c;这里面有几个参考的思路&＃xff1a;

增加一个仲裁机制。例如设置参考的IP&＃xff0c;当心跳完全断开的时候&＃xff0c;2个节点各自都ping一下参考的IP&＃xff0c;不同则表明断点就出现在本段&＃xff0c;这样就主动放弃竞争&＃xff0c;让能够ping通参考IP的一端去接管服务。

通过第三方软件仲裁谁该获得资源&＃xff0c;这个在阿里有类似的软件应用

四、HeartBeat的消息类型&＃xff1a;

　　heartBeat高可用软件在工作的过程中&＃xff0c;一般来说&＃xff0c;有三种消息的类型&＃xff0c;具体为&＃xff1a;

1、心跳消息

心跳消息为约150字节的数据包&＃xff0c;可能为单播&＃xff0c;广播或者多播的方式&＃xff0c;控制心跳频率以及出现故障要等待多久进行故障转换

2、集群转换消息

　　　　当主服务器恢复在线状态时&＃xff0c;通过ip-request消息是要求备机释放主服务器失败时被服务器取得的的资源&＃xff0c;然后被服务器关闭是仿主服务器失败时取得的资源以及服务。

备服务器释放主服务器失败时取得的资源以及服务后&＃xff0c;就会通过ip-request-resp消息通知主服务器它不在拥有该资源以及服务&＃xff0c;主服务器收到来自备节点的ip-request-resp消息通知后&＃xff0c;启动失败时释放的资源以及服务&＃xff0c;并开始提供正常的访问服务。

3、重传消息请求

rexmit-request控制重传心跳请求。此消息不太重要&＃xff0c;细节就不多介绍了

　　提示&＃xff1a;以上的心跳控制消息都使用的是UDP协议发送到/etc/ha.d/ha.cf文件指定到任意的端口&＃xff0c;或者指定到多播地址。

五、Heartbeat ip地址接管和故障转移&＃xff1a;

　　Heartbeat是通过IP地址接管和ARP广播进行故障转移的。

1、ARP广播

在主服务器故障的时候&＃xff0c;备用节点接管资源后&＃xff0c;会强制更新所有的客户端本地的ARP表&＃xff08;即清除客户端本地缓存的失败服务器的VIP地址和mac地址的解析记录&＃xff09;。确保客户端和新的主服务器进行对话。

　　&＃xff08;这提到的客户端机器是和Heartbeat高可用服务器对在同一个网络中的客户机&＃xff0c;并不是最终的互联网用户&＃xff0c;这里的客户端及其是相对Heartbeat高可用服务器对说的&＃xff0c;这点&＃xff0c;请注意下&＃xff09;

2、VIP/IP 别名/辅助IP&＃xff1a;

　　真实IP&＃xff0c;又被称为管理IP&＃xff0c;一般是配置在物理网卡上的实际IP&＃xff0c;这可以看做是你本人的真实姓名&＃xff0c;如&＃xff1a;张三。在负载均衡以及高可用环境中&＃xff0c;管理IP是不会对外提

供用户的访问服务的&＃xff0c;而是仅作管理服务器使用&＃xff0c;如ssh可以通过这个管理IP连接服务器　　　　

　　VIP是虚拟的IP&＃xff0c;只是个概念而已&＃xff0c;可能会误导&＃xff0c;实际上就是Heartbeat临时绑在物理网卡上的别名IP&＃xff0c;如eth0&＃xff1a;x&＃xff0c;x为0-255的任意数字&＃xff0c;可以在一块网卡上绑

定多个别名&＃xff0c;这样做的好处是当提供服务的服务器宕机之后&＃xff0c;在接管的服务器上会直接会自动配置上同样的VIP提供服务。如果使用管理IP的话&＃xff0c;来回迁移就难以做

到&＃xff0c;而且&＃xff0c;管理IP迁移过去了我们就不能够登录到这台机器上&＃xff0c;这就需要到机房登陆了。VIP的实质就是确保两台服务器有一个管理IP不懂&＃xff0c;就是随时可以连上机器&＃xff0c;

然后&＃xff0c;增加绑定其他的VIP&＃xff0c;这样就算VIP转移走了&＃xff0c;也不至于服务器本身连不上&＃xff0c;因为还有管理的IP呢

3、手工配置VIP的方法

ifconfig eth0:1 124.42.61.109 netmask 255.255.255.224 up&＃xff08;ip alias&＃xff09; –》heartbeat2软件默认是使用这个命令来添加VIP的ip addr add 10.0.15.1/24 broadcast 10.0.15.255 dev eth1&＃xff08;辅助Ip&＃xff09;–》keepalived以及heartbeat3采用的方案添加VIP的

注意&＃xff1a;使用ip addr能够查看到包括别名和辅助IP&＃xff0c;用ifconfig无法查到辅助IP的配置情况

4、手工删除VIP的方法&＃xff1a;

ip addr del 10.0.15.1/24 broadcast 10.0.15.255 dev eth1&＃xff08;辅助IP&＃xff09; ifconfig eth0:1 124.42.61.109 netmask 255.255.255.244 down(ip alias)
六、HeartBeat配置文件&＃xff1a;

heartbeat的默认配置文件的目录为/etc/ha.d heartbeat的常用配置文件有三个&＃xff0c;分别为ha.cf、authkey、haresource.

ha.cf heartbeat参数配置文件在这里配置一些基本的参数
authkey heartbeat认证文件高可用服务器对之间根据对端的authkey&＃xff0c;对对端的进行认证
haresource heartbeat的资源文件如配置资源以及一些脚本程序

重要资源目录&＃xff1a;/etc/ha.d/resource.d/,如果以后自己开发程序&＃xff0c;就放到这个地方即可&＃xff0c;然后在haresource文件里直接调用。

推荐阅读

client
在Windows环境中使用SecureCRT高效连接Linux服务器

SecureCRT是一款功能强大的终端仿真软件，支持SSH1和SSH2协议，适用于在Windows环境下高效连接和管理Linux服务器。该工具不仅提供了稳定的连接性能，还具备丰富的配置选项，能够满足不同用户的需求。通过SecureCRT，用户可以轻松实现对远程Linux系统的安全访问和操作。 ... [详细]

蜡笔小新 2024-11-10 14:46:15
config
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
stream
Android 源代码解析系列（一）：init.c 文件详解

本文详细解析了 Android 系统启动过程中的核心文件 `init.c`，探讨了其在系统初始化阶段的关键作用。通过对 `init.c` 的源代码进行深入分析，揭示了其如何管理进程、解析配置文件以及执行系统启动脚本。此外，文章还介绍了 `init` 进程的生命周期及其与内核的交互方式，为开发者提供了深入了解 Android 启动机制的宝贵资料。 ... [详细]

蜡笔小新 2024-11-10 00:35:48
main
Yii2 Elasticsearch: 确保 GET /_nodes 请求的正确性与安全性

在安装并配置了Elasticsearch后，我在尝试通过GET /_nodes请求获取节点信息时遇到了问题，收到了错误消息。为了确保请求的正确性和安全性，我需要进一步排查配置和网络设置，以确保Elasticsearch集群能够正常响应。此外，还需要检查安全设置，如防火墙规则和认证机制，以防止未经授权的访问。 ... [详细]

蜡笔小新 2024-11-08 15:16:44
python
CLIfe：我的高效开发环境配置

在开发过程中，我最初也依赖于功能全面但操作繁琐的集成开发环境（IDE），如Borland Delphi 和 Microsoft Visual Studio。然而，随着对高效开发的追求，我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe，我构建了一个高度定制化的开发环境，不仅提高了代码编写效率，还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件，使我在日常开发中能够更加得心应手。 ... [详细]

蜡笔小新 2024-11-07 18:32:20
main
SSH集成过程中常见问题及解决方案

在使用SSH框架进行项目开发时，经常会遇到一些常见的问题。例如，在Spring配置文件中配置AOP事务声明后，进行单元测试时可能会出现“No Hibernate Session bound to thread”的错误。本文将详细探讨这一问题的原因，并提供有效的解决方案，帮助开发者顺利解决此类问题。 ... [详细]

蜡笔小新 2024-11-07 03:17:49
byte
手指触控|Android电容屏幕驱动调试指南

手指触控|Android电容屏幕驱动调试指南 ... [详细]

蜡笔小新 2024-11-07 01:42:20
client
TCP三次握手过程详解与图示解析

本文详细解析了TCP三次握手的过程，并通过图示清晰展示了各个状态的变化。同时，文章还介绍了四次挥手的图解，解释了在TIME_WAIT状态中，客户端最后一次发送的ACK包的作用和重要性。 ... [详细]

蜡笔小新 2024-11-06 08:31:52
post
在GitHub上克隆vue-element-admin项目时遇到依赖安装错误

在 GitHub 上克隆 vue-element-admin 项目后，使用 `npm install` 安装依赖时遇到了未知的 Git 错误。具体错误信息为 `npm ERR! code 128`，提示命令执行失败。这可能是由于网络问题、Git 配置不正确或某些依赖包的仓库地址无效导致的。建议检查网络连接、更新 Git 版本并确保所有依赖项的 URL 正确无误。 ... [详细]

蜡笔小新 2024-11-04 17:01:47
get
CentOS 7环境下Jenkins的安装与前后端应用部署详解

CentOS 7环境下Jenkins的安装与前后端应用部署详解 ... [详细]

蜡笔小新 2024-11-04 16:46:02
get
Vuforia 开发指南：第二章环境配置与搭建

本章节详细介绍了如何在Vuforia官网上完成账号注册及环境配置。首先，访问Vuforia官方网站并点击“Register”按钮，按照提示填写必要的个人信息。提交表单后，系统将验证信息并创建账户。接下来，用户需要下载并安装Vuforia开发工具，确保开发环境的顺利搭建。此外，还提供了详细的配置步骤和常见问题的解决方案，帮助开发者快速上手。 ... [详细]

蜡笔小新 2024-11-09 18:05:33
byte
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 12:37:55
config
JavaWeb项目架构中的NFS文件服务器实现与优化

在JavaWeb项目架构中，NFS（网络文件系统）的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录，提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用，包括配置、性能优化及常见问题的解决方案，旨在为开发者提供实用的技术参考。 ... [详细]

蜡笔小新 2024-11-06 15:58:12
io
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
python
技术日志：Ansible的安装及模块管理详解

技术日志：Ansible的安装及模块管理详解 ... [详细]

蜡笔小新 2024-11-03 15:01:47

爱的伤痕累2602882347_111

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章