RAC的一些概念性和原理性的知识

作者：阮三岁 | 来源：互联网 | 2017-05-12 15:07

在集群环境中，关键数据通常是共享存放的，比如放在共享磁盘上。而各个节点的对数据有相同的访问权限，这时就必须有某种机制能

一集群环境下的一些特殊问题

1.1 并发控制

在集群环境中，关键数据通常是共享存放的，比如放在共享磁盘上。而各个节点的对数据有相同的访问权限，这时就必须有某种机制能够控制节点对数据的访问。 Oracle RAC 是利用DLM(Distribute Lock Management) 机制来进行多个实例间的并发控制。

1.2 健忘症(Amnesia)

集群环境配置文件不是集中存放的，而是每个节点都有一个本地副本，在集群正常运行时，用户可以在任何节点更改集群的配置，并且这种更改会自动同步到其他节点。

有一种特殊情况：节点A 正常关闭，在节点B上修改配置，关闭结点A，启动结点B。这种情况下，修改的配置文件是丢失的，就是所谓的健忘症。

1.3 脑裂(Split Brain)

在集群中，节点间通过某种机制(心跳)了解彼此的健康状态，以确保各节点协调工作。假设只有"心跳"出现问题，各个节点还在正常运行，这时，每个节点都认为其他的节点宕机了，自己是整个集群环境中的"唯一建在者"，自己应该获得整个集群的"控制权"。在集群环境中，存储设备都是共享的，这就意味着数据灾难，这种情况就是"脑裂"

解决这个问题的通常办法是使用投票算法(Quorum Algorithm). 它的算法机理如下：

集群中各个节点需要心跳机制来通报彼此的"健康状态"，假设每收到一个节点的"通报"代表一票。对于三个节点的集群，正常运行时，每个节点都会有3票。当结点A心跳出现故障但节点A还在运行，这时整个集群就会分裂成2个小的partition。节点A是一个，剩下的2个是一个。这是必须剔除一个partition才能保障集群的健康运行。

对于有3个节点的集群， A 心跳出现问题后， B 和 C 是一个partion，有2票， A只有1票。按照投票算法， B 和C 组成的集群获得控制权， A 被剔除。

如果只有2个节点，投票算法就失效了。因为每个节点上都只有1票。这时就需要引入第三个设备：Quorum Device. Quorum Device 通常采用饿是共享磁盘，这个磁盘也叫作Quorum disk。这个Quorum Disk 也代表一票。当2个结点的心跳出现问题时， 2个节点同时去争取Quorum Disk 这一票，最早到达的请求被最先满足。故最先获得Quorum Disk的节点就获得2票。另一个节点就会被剔除。

1.4 IO 隔离(Fencing)

当集群系统出现"脑裂"问题的时候，我们可以通过"投票算法"来解决谁获得集群控制权的问题。但是这样是不够的，我们还必须保证被赶出去的结点不能操作共享数据。这就是IO Fencing 要解决的问题。

IO Fencing实现有硬件和软件2种方式：

软件方式：对于支持SCSI Reserve/Release 命令的存储设备，可以用SG命令来实现。正常的节点使用SCSI Reserve命令"锁住"存储设备，故障节点发现存储设备被锁住后，就知道自己被赶出了集群，也就是说自己出现了异常情况，就要自己进行重启，以恢复到正常状态。这个机制也叫作 Sicide(自杀). Sun 和Veritas 使用的就是这种机制。

硬件方式：STONITH(Shoot The Other Node in the Head)，这种方式直接操作电源开关，当一个节点发生故障时，另一个节点如果能侦测到，就会通过串口发出命令，控制故障节点的电源开关，通过暂时断电，而又上电的方式使故障节点被重启动，这种方式需要硬件支持。

二 RAC 集群

2.1 Clusterware

在单机环境下，Oracle是运行在OS Kernel 之上的。 OS Kernel负责管理硬件设备，并提供硬件访问接口。 Oracle 不会直接操作硬件，而是有OS Kernel代替它来完成对硬件的调用请求。

在集群环境下，存储设备是共享的。OS Kernel 的设计都是针对单机的，只能控制单机上多个进程间的访问。如果还依赖OS Kernel的服务，就无法保证多个主机间的协调工作。这时就需要引入额外的控制机制，在RAC中，这个机制就是位于Oracle 和 OS Kernel 之间的Clusterware，它会在OS Kernel之前截获请求，然后和其他结点上的Clusterware协商，最终完成上层的请求。

在Oracle 10G之前，RAC 所需要的集群件依赖与硬件厂商，比如SUN,HP,Veritas. 从Oracle 10.1版本中，Oracle 推出了自己的集群产品. Cluster Ready Service(CRS),从此RAC 不在依赖与任何厂商的集群软件。在Oracle 10.2版本中，这个产品改名为：Oracle Clusterware。

所以我们可以看出，在整个RAC 集群中，实际上有2个集群环境的存在，一个是由Clusterware 软件组成的集群，另一个是由Database 组成的集群。

2.2 Clusterware 组成

2.2.1 磁盘文件:

Clusterware 在运行期间需要两个文件：OCR和Voting Disk. 这2个文件必须存放在共享存储上。 OCR 用于解决健忘问题，Voting Disk 用于解决健忘问题。 Oracle 建议使用裸设备来存放这2个文件，每个文件创建一个裸设备，每个裸设备分配100M左右的空间就够了。

2.2.1.1 OCR

健忘问题是由于每个节点都有配置信息的拷贝，修改节点的配置信息不同步引起的。 Oracle 采用的解决方法就是把这个配置文件放在共享的存储上，这个文件就是OCR Disk。

OCR 中保存整个集群的配置信息，配置信息以"Key-Value" 的形式保存其中。在Oracle 10g以前，这个文件叫作Server Manageability Repository(SRVM). 在Oracle 10g，这部分内容被重新设计，并重名为OCR.在Oracle Clusterware 安装的过程中，安装程序会提示用户指定OCR位置。并且用户指定的这个位置会被记录在/etc/oracle/ocr.Loc(Linux System) 或者/var/opt/oracle/ocr.Loc(Solaris System)文件中。而在Oracle 9i RAC中，对等的是srvConfig.Loc文件。 Oracle Clusterware在启动时会根据这里面的内容从指定位置读入OCR 内容。

1). OCR key

整个OCR 的信息是树形结构，有3个大分支。分别是SYSTEM,DATABASE 和CRS。每个分支下面又有许多小分支。这些记录的信息只能由root用户修改。

2) OCR process

Oracle Clusterware 在OCR中存放集群配置信息，故OCR 的内容非常的重要，所有对OCR的操作必须确保OCR 内容完整性，所以在ORACLE Clusterware运行过程中，并不是所有结点都能操作OCR Disk.

在每个节点的内存中都有一份OCR内容的拷贝，这份拷贝叫作OCR Cache。每个结点都有一个OCR Process 来读写OCR Cache，但只有一个节点的OCR process能读写OCR Disk中的内容，这个节点叫作OCR Master结点。这个节点的OCR process 负责更新本地和其他结点的OCR Cache内容。

所有需要OCR 内容的其他进程，比如OCSSD,EVM等都叫作Client Process，这些进程不会直接访问OCR Cache，而是像OCR Process发送请求，借助OCR Process获得内容，如果想要修改OCR 内容，也要由该节点的OCR Process像Master node 的OCR process 提交申请，由Master OCR Process完成物理读写，并同步所有节点OCR Cache中的内容。

2.2.1.2 Voting Disk

Voting Disk 这个文件主要用于记录节点成员状态，在出现脑裂时，决定那个Partion获得控制权，其他的Partion必须从集群中剔除。在安装Clusterware时也会提示指定这个位置。安装完成后可以通过如下命令来查看Voting Disk位置。

$Crsctl query css votedisk

2.2.2 Clusterware 后台进程

Clusterware 由若干进程组成，其中最重要的3个是：CRSD,CSSD,EVMD. 在安装clusterware的最后阶段，会要求在每个节点执行root.sh 脚本，这个脚本会在/etc/inittab 文件的最后把这3个进程加入启动项，这样以后每次系统启动时，Clusterware 也会自动启动，其中EVMD和CRSD 两个进程如果出现异常，则系统会自动重启这两个进程，如果是CSSD 进程异常，，系统会立即重启。

1). OCSSD

OCSSD 这个进程是Clusterware最关键的进程，如果这个进程出现异常，会导致系统重启，这个进程提供CSS(Cluster Synchronization Service)服务。 CSS 服务通过多种心跳机制实时监控集群状态，提供脑裂保护等基础集群服务功能。

CSS 服务有2种心跳机制：一种是通过私有网络的Network Heartbeat，另一种是通过Voting Disk的Disk Heartbeat.

这2种心跳都有最大延时，对于Disk Heartbeat，这个延时叫作IOT (I/O Timeout);对于Network Heartbeat, 这个延时叫MC(Misscount)。这2个参数都以秒为单位，缺省时IOT大于MC，在默认情况下，这2个参数是Oracle 自动判定的，并且不建议调整。可以通过如下命令来查看参数值：

$crsctl get css disktimeout

$crsctl get css misscount

注：除了Clusterware 需要这个进程，在单节点环境中如果使用了ASM，也需要这个进程；这个进程用于支持ASM Instance 和RDBMS Instance之间的通信。如果在使用了ASM的节点上安装RAC，会遇到一个问题：RAC节点要求只有一个OCSSD进程，并且应该是运行$CRS_HOME目录下的，这时就需要先停止ASM，并通过$ORACLE_HOME/bin/localcfig.Sh delete 删除之前的inittab 条目。之前安装ASM时，也使用这个脚本来启动OCSSD： $ORACLE_HOME/bin/localconfig.Sh add.

2). CRSD

CRS Resource 包括GSD(Global Serveice Daemon),ONS(Oracle Notification Service),VIP, Database, Instance 和 Service. 这些资源被分成2类：

GSD，ONS,VIP 和 Listener 属于Noteapps类

Database，Instance 和Service 属于 Database-Related Resource 类。

我们可以这样理解： Nodeapps 就是说每个节点只需要一个就够了，比如每个节点只有一个Listener，而Database-Related Resource 就是说这些资源和数据库有关，不受节点的限制，比如一个节点可以有多个实例，每个实例可以有多个Service。

GSD，ONS,VIP 这3个服务是在安装Clusterware的最后，执行VIPCA 时创建并登记到OCR中的。而Database， Listener， Instance 和Service 是在各自的配置过程中自动或者手动登记到OCR中的。

3). EVMD

EVMD 这个进程负责发布CRS 产生的各种事件(Event). 这些Event可以通过2种方式发布给客户：ONS 和 Callout Script. 用户可以自定义回调脚本，放在特定的目录下，这样当有某些事件发生时，EVMD会自动扫描该目录，并调用用户的脚本，这种调用是通过racgevt进程来完成的。

EVMD 进程除了复杂发布事件之外，它还是CRSD 和CSSD 两个进程之间的桥梁。 CRS 和CSS 两个服务之前的通信就是通过EVMD 进程完成的。

4). RACGIMON

RACGIMON 这个进程负责检查数据库健康状态，负责Service的启动，停止，故障转移(Failover)。这个进程会建立到数据库的持久连接，定期检查SGA中的特定信息，该信息由PMON 进程定时更新。

5). OPROCD

OPROCD 这个进程也叫作 Process Monitor Daemon. 如果在非Linux 平台上，并且没有使用第三方的集群软件时，就会看到这个进程。这个进程用来检查节点的Processor Hang(CPU 挂起), 如果调度时间超过1.5秒，就会认为CPU 工作异常，会重启节点。也就是说这个进程提供 "IO 隔离" 的功能。从其在Windows 平台上的服务名： OraFnceService 也可以看出它的功能。而在Linux 平台上，是利用Hangcheck-timer 模块来实现"IO 隔离"的。

2.3 VIP 原理和特点

Oracle 的TAF 就是建立在VIP 技术之上的。 IP 和VIP 区别在与： IP 是利用TCP层超时， VIP 利用的是应用层的立即响应。VIP 它是浮动的IP. 当一个节点出现问题时会自动的转到另一个节点上。

假设有一个2个节点的RAC，正常运行时每个节点上都有一个VIP。 VIP1 和VIP2. 当节点2发生故障，比如异常关系。 RAC 会做如下操作：

1). CRS 在检测到rac2节点异常后，会触发Clusterware 重构，最后把rac2节点剔除集群，由节点1组成新的集群。

2). RAC的Failover 机制会把节点2的VIP转移到节点1上，这时节点1的PUBLIC 网卡上就有3个IP 地址： VIP1,VIP2, PUBLIC IP1.

3). 用户对VIP2的连接请求会被IP层路由转到节点1

4). 因为在节点1上有VIP2的地址，所有数据包会顺利通过路由层，网络层，传输层。

5). 但是，节点1上只监听VIP1和public IP1的两个IP地址。并没有监听VIP2，故应用层没有对应的程序接收这个数据包，这个错误立即被捕获。

6). 客户段能够立即接收到这个错误，然后客户段会重新发起向VIP1的连接请求。

VIP 特点：

1). VIP 是通过VIPCA脚本创建的

2). VIP 作为Nodeapps类型的CRS Resource 注册到OCR中，并由CRS 维护状态。

3). VIP 会绑定到节点的public 网卡上，故public 网卡有2个地址。

4). 当某个节点发生故障时，CRS 会把故障节点的VIP 转移到其他节点上。

5). 每个节点的Listener 会同时监听public 网卡上的 public ip 和VIP

6). 客户端的tnsnames.Ora 一般会配置指向节点的VIP.

2.4 Clusterware 的日志体系

Oracle Clusterware的辅助诊断，只能从log 和trace 进行。而且它的日志体系比较复杂。

alert.log:

$ORA_CRS_HOME/log/hostname/alert.Log, 这是首选的查看文件。

Clusterware后台进程日志：

crsd.Log: $ORA_CRS_HOME/log/hostname/crsd/crsd.Log

ocssd.Log: $ORA_CRS_HOME/log/hostname/cssd/ocsd.Log

evmd.Log: $ORA_CRS_HOME/log/hostname/evmd/evmd.Log

Nodeapp日志位置：

$ORA_CRS_HOME/log/hostname/racg/

这里面放的是nodeapp的日志，包括ONS和VIP，比如：ora.Rac1.ons.Log

工具执行日志：

$ORA_CRS_HOME/log/hostname/client/

Clusterware 提供了许多命令行工具：

比如ocrcheck, ocrconfig,ocrdump,oifcfg和clscfg, 这些工具产生的日志就放在这个目录下

还有$ORACLE_HOME/log/hostname/client/ 和

$ORACLE_HOME/log/hostname/racg 也有相关的日志。

推荐阅读

main
如何高效学习鸿蒙操作系统：开发者指南

本文探讨了开发者如何更有效地学习鸿蒙操作系统，提供了来自行业专家的建议，包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]

蜡笔小新 2024-11-23 19:22:14
main
Java中提取字符串的最后一部分

本文介绍了如何使用Java中的substring()和split()方法来提取字符串的最后一部分，特别是在处理包含特殊字符的路径时的方法与技巧。 ... [详细]

蜡笔小新 2024-11-23 17:45:24
php
iOS开发中的UIView及其子类应用

本文介绍了用户界面（User Interface, UI）的基本概念，以及在iOS应用程序中UIView及其子类的重要性和使用方式。文章详细探讨了UIView如何作为用户交互的核心组件，以及它与其他UI控件和业务逻辑的关系。 ... [详细]

蜡笔小新 2024-11-23 16:25:09
php
线性表中的元素删除算法

本文探讨了线性表中元素的删除方法，包括顺序表和链表的不同实现策略，以及这些策略在实际应用中的性能分析。 ... [详细]

蜡笔小新 2024-11-23 16:14:36
rsa
实现Win10与Linux服务器的SSH无密码登录

本文介绍了如何在Windows 10环境下使用Git工具，通过配置SSH密钥对，实现与Linux服务器的无密码登录。主要步骤包括生成本地公钥、上传至服务器以及配置服务器端的信任关系。 ... [详细]

蜡笔小新 2024-11-23 15:50:03
php
P3796 AC自动机强化版题解 - Aho-Corasick Algorithm

本文提供了一个关于AC自动机（Aho-Corasick Algorithm）的详细解析与实现方法，特别针对P3796题目进行了深入探讨。文章不仅涵盖了AC自动机的基本概念，还重点讲解了如何通过构建失败指针（fail pointer）来提高字符串匹配效率。 ... [详细]

蜡笔小新 2024-11-23 13:17:52
go
PHP版本选择指南：适应不同场景的最佳实践

本文详细探讨了如何根据不同的应用场景选择合适的PHP版本，包括多版本切换技巧、稳定性分析及针对WordPress等特定平台的版本建议。 ... [详细]

蜡笔小新 2024-11-23 17:00:59
filter
深入解析Apache Mina开发指南

本文由chszs撰写，详细介绍了Apache Mina框架的核心开发流程及自定义协议处理方法。文章涵盖从创建IoService实例到协议编解码的具体步骤，适合希望深入了解Mina框架应用的开发者。 ... [详细]

蜡笔小新 2024-11-23 15:02:21
main
Linux线程中私有数据的管理与保护

本文探讨了Linux环境下线程私有数据(Thread-Specific Data, TSD)的概念及其重要性，介绍了如何通过TSD技术避免多线程间全局变量冲突的问题，并提供了具体的实现方法和示例代码。 ... [详细]

蜡笔小新 2024-11-23 13:45:37
main
嵌入式系统实验：GPIO控制与按键响应

本报告记录了嵌入式软件设计课程中的第二次实验，主要探讨了使用KEIL V5开发环境和ST固件库进行GPIO控制及按键响应编程的方法。通过实际操作，加深了对嵌入式系统硬件接口编程的理解。 ... [详细]

蜡笔小新 2024-11-23 13:00:00
main
PyInstaller 打包动态插件时的命令参数配置

在使用 PyInstaller 将 Python 应用程序打包成独立的可执行文件时，若项目中包含动态加载的库或插件，需要正确配置 --hidden-import 和 --add-binary 参数，以确保所有依赖项均能被正确识别和打包。 ... [详细]

蜡笔小新 2024-11-23 11:38:34
web
服务器系统架构性能评估指南

本文探讨了服务器系统架构的性能评估方法，包括性能评估的目的、步骤以及如何选择合适的度量标准。文章还介绍了几种常用的基准测试程序及其应用，并详细说明了Web服务器性能评估的关键指标与测试方法。 ... [详细]

蜡笔小新 2024-11-23 11:12:26
controller
如何高效渲染JSON数据

本文介绍了在控制器中返回JSON结果的方法，并详细说明了如何利用jQuery处理和展示这些数据，为Web开发提供了实用的技巧。 ... [详细]

蜡笔小新 2024-11-23 10:41:31
web
WebBenchmark：强大的Web API性能测试工具

本文介绍了一款名为WebBenchmark的Web API性能测试工具，该工具不仅支持HTTP和HTTPS服务的测试，还提供了丰富的功能来帮助开发者进行高效的性能评估。 ... [详细]

蜡笔小新 2024-11-23 05:24:11
range
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16

阮三岁

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章