当前位置: 开发笔记 > 运维 > 正文

VMwarevSphere5虚拟机介绍

作者：手机用户2502909811 | 来源：互联网 | 2014-05-27 20:35

很久没有动笔写博客了。总算最近的几项工作告一段落，对iOS和Android的折腾也兴趣稍退，该写点技术博客了。想写一篇关于VMwareHA的博客由来已久，曾经做了些功课，查了不少资料，写了点笔记，但是终于因为各种原因没有成文。随着vSphere5的发布，HA机制作出

很久没有动笔写博客了。总算最近的几项工作告一段落，对iOS和Android的折腾也兴趣稍退，该写点技术博客了。

想写一篇关于VMware HA的博客由来已久，曾经做了些功课，查了不少资料，写了点笔记，但是终于因为各种原因没有成文。随着vSphere 5的发布，HA机制作出了不少调整，很有必要写一些了。本文（或许我可能还会就ESX4的HA机制和操作写上几篇，凑成一个系列）就是我的一点读书笔记整理而成。

注：谢绝不加引用和出处的恶意转载。谢绝百度文库任何形式的转载。

【什么是HA】

HA的英文是High Availability，高可用性。从字面上的意思就是一种让服务中断尽可能少的技术。VMware的HA和微软的MSCS(Win2008以后改称Failover Clustering)类似，都是将多台主机组建成一个故障转移集群(Cluster)，运行在集群上的服务(或VM)不会因为单台主机的故障而停止。

用一个图来简单说明HA的工作原理：图中橙色的主机ESXi01宕机了，其上的2台虚拟机VM1和VM2就根据HA的调度被ESXi-02和ESXi-03这2台主机接管，并重启运行起来。

VMware vSphere 5 HA详解 - zhuzhu - 五事九思（大连Linux主机维护）

注：本文图片均截取自《VMware vSphere 5 Clustering Technical Deepdive》

但是要注意的是，HA(无论是VMware的HA还是MSCS)不是通常意义上的完全不中断服务的高可用性，HA只是一种自动的故障切换机制，当某一主机发生故障时，服务或VM（就配置了MSCS的Hyper-V来看，VM其实也被看作是一个服务）自动到另外的可用的主机上重启。这其实是一个中断然后重启的过程。就VM来说，看上去就好像是一台服务器突然被拔掉了电源线，然后又重新加电开机。这个故障然后重启的过程其实是比较长的，根据不同的VM而不同，少则1-2分钟，多的则可能达到5-6分钟。如果运行在一台缺乏资源的的主机上，这个时间可能更长。

【创建一个VMware HA】
创建一个VMware Cluster并启用HA的方法很简单。谷歌百度一下很容易找到一堆。这里不再赘述，过几天有空了我另外截些图单独写一篇Cluster创建图解的blog。

这里我想重点讲的是HA的原理。

【创建HA的前提】

一个通用的HA的集群通常有这么几个必要的条件组成：
* 2台或者更多台主机
* 这些主机共享一个外部存储
* VM是运行在共享存储上的
* 主机上至少有2个以上的网卡，其中一个需要负责传递“心跳”信号。

上面这些条件是大多数高可用性集群都需要的一致的。

此外，要成功配置VMware HA，还必须具备这么几个必要条件：
* 必须有vCenter Server（虽然没有vCenter HA也能发挥作用，但是创建Cluster的时候必须有vCenter的参与）

* 所有Host都必须有相同的vSwitch配置

特别要注意的是，对于ESX 4.x或之前版本，DNS是建立HA必要前提，所有Host都必须能够正确的解析其他node的DNS名字，将主机加入到一个集群也必须用其FQDN名。但是从vSphere 5开始，这已经不是必要的了，IP地址被直接用作HA集群的通信，这样减少了HA的依赖性，加快了HA的响应速度。

但是，因为VMware vSphere 5的其他一些服务和组件仍然需要DNS，使用FQDN虽然仍然是推荐做法。

【HA的组成部分】

vSphere 5的HA的组件有以下三个：

FDM是Fault Domain Manager的缩写，它的前身在ESX4叫作AAM，是用来管理HA的最重要的一个组件。它负责cluster的心跳、主机之间的通信，和vCenter的通信、协调虚拟机的位置、调度虚拟机的重启、记录日志等等。

hostd负责监控直接和虚拟机打交道，例如让虚拟机开机、监控虚拟机的状态等。FDM需要hostd的帮助来完成对虚拟机的操作（例如开机）。简而言之，FDM依赖hostd，如果hostd失效了，FDM也会暂停工作。

vCenter是企业中虚拟架构的集中管理平台，HA虽然不依赖它运转，但是在组建HA cluster的时候必须通过vCenter来发起。它的主要作用是，在主机上安装HA的Agent（指FDM和hostd agent），在Cluster配置更改的时候通知各主机。

【Master和Slave】

ESX4的时候，节点分成Primary和Secondary，最先加入cluster的5个节点成为Primary，并各自存有一份AAM Database。

vSphere 5对此进行了简化。现在不再有Primary和Secondary的概念了，取而代之的是Master和Slave。一个Cluster中只有一台Master，其余都是Slave。

Master的作用是管理整个集群，作为集群的主要管理者，它监控虚拟机的运行状态，判断某一个主机是否宕机，它监控每个VM的位置，并判断VM是否需要在其他主机上重启。对于一个集群来说，Master是其上所有虚拟机的“主人”。

在哪里可以看出主机是否Master？参见下图

没有Master的集群就会群龙无首，群龙无首的集群就fail了。

当Master失效时怎么办？集群不能没有Master，因此Master的选举会马上被触发。

【Master的选举】
选举会在以下情况被触发：

HA创建时；

Master宕机；

Master处于isolated或者集群出现了partitioned状态；

Master被置于维护状态或Standby状态；

集群被重新配置时；

Master和vCenter失去了联系；

选举需要15秒时间。选举通过UDP协议（端口8182）进行。
选举的规则是：拥有最多的datastore的主机当选。如果主机拥有的datastore一样多，那么Managed Objective ID号最大的那台主机当选。

(注：这里的最大不是数值最大，而是从左向右比较依次比较每一位上的数字的大小，例如99就比100大，因为第一位的数字首先比较，9大于1）

【Master伸张其主权】

当选后，新的master会伸张其主人的权力，试图接管所有datastore。

Q: 如何接管？（或者说怎样才算接管了datastore）
A: 通过锁定(lock)一个文件的方式，这个文件存在每个datastore上，名字叫“protectedlist”

该文件的位置是：
//.vSphere-HA//protectedlist

这个文件里面存放的是受HA保护的VM列表。

若Master坏掉，则其lock会过期，新当选的master就可以接管这个文件，并重新上锁。

Master还负责监控Slave的状态，如果发现slave不响应其心跳，则会判断是否要重启slave上的虚拟机。

Slave之间是不相互通信的，除了选举Master的时候。

推荐阅读

tomcat
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
stdout
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
stdout
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
stdout
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
运维
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
shell
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
服务器
MQTT技术周报：硬件连接与协议解析

本周开发笔记重点介绍了在新项目中使用MQTT协议进行硬件连接的技术细节，涵盖其特性、原理及实现步骤。 ... [详细]

蜡笔小新 2024-12-27 11:30:44
service
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
service
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19
unix
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
服务器
深入解析 HTTP 500 内部服务器错误

本文详细探讨了HTTP 500内部服务器错误的成因、解决方案及其在Web开发中的影响。通过对具体案例的分析，帮助读者理解并解决此类问题。 ... [详细]

蜡笔小新 2024-12-26 16:55:25
ssh
网络运维工程师的前景与薪酬分析

网络运维工程师负责确保企业IT基础设施的稳定运行，保障业务连续性和数据安全。他们需要具备多种技能，包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]

蜡笔小新 2024-12-26 14:35:04
ssh
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
touch
深入理解Android中的ADB Shell Input命令：模拟滑动、按键和点击事件

在维护公司项目时，发现按下手机的某个物理按键后会激活相应的服务，并在屏幕上模拟点击特定坐标点。本文详细介绍了如何使用ADB Shell Input命令来模拟各种输入事件，包括滑动、按键和点击等。 ... [详细]

蜡笔小新 2024-12-26 13:43:24
dns
百度服务再次遭遇技术问题，疑似DNS解析故障

近日晚间，百度多项在线服务出现加载异常，包括移动端搜索在内的多个功能受到影响。初步迹象表明，问题可能与DNS服务器解析有关。 ... [详细]

蜡笔小新 2024-12-26 12:52:25

手机用户2502909811

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章