当前位置: 开发笔记 > 运维 > 正文

双节点RAC各个节点主机频繁自动重启故障解决

作者：诗雨妈咪201101102002 | 来源：互联网 | 2018-07-05 07:14

最近在vmware中搭建了一个oracle10gRAC的双节点实验平台并将oracleRAC从10.2.0.1升级到10.2.0.5，后来发现两台linux经常自动重

最近在vmware中搭建了一个oracle10g RAC的双节点实验平台并将oracle RAC从10.2.0.1升级到10.2.0.5，后来发现两台linux经常自动重

1) 背景介绍：

最近在vmware中搭建了一个Oracle10g RAC的双节点实验平台并将oracle RAC从10.2.0.1升级到10.2.0.5，后来发现两台linux经常自动重启； 2) 平台信息：
vmware7 + OEL5.7X64 + ASMLib2.0 + ORACLE10.2.0.53) /var/log/message日志：
NODE1:Linux1
Apr 18 20:44:18 Linux1 syslogd 1.4.1: restart.
Apr 18 20:44:18 Linux1 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Apr 18 20:44:18 Linux1 kernel: Initializing cgroup subsys cpuset
Apr 18 20:44:18 Linux1 kernel: Initializing cgroup subsys cpu
Apr 18 20:44:18 Linux1 kernel: Linux version 2.6.32-200.13.1.el5uek (mockbuild@ca-build9.us.oracle.com) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-50)) #1 SMP Wed Jul 27 21:02:33 EDT 2011
Apr 18 20:44:18 Linux1 kernel: Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet
Apr 18 20:44:18 Linux1 kernel: KERNEL supported cpus:
Apr 18 20:44:18 Linux1 kernel: Intel GenuineIntel
Apr 18 20:44:18 Linux1 kernel: AMD AuthenticAMD
Apr 18 20:44:18 Linux1 kernel: Centaur CentaurHauls
Apr 18 20:44:18 Linux1 kernel: BIOS-provided physical RAM map:
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 0000000000000000 - 000000000009f800 (usable)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 000000000009f800 - 00000000000a0000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000000ca000 - 00000000000cc000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000000dc000 - 00000000000e4000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000000e8000 - 0000000000100000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 0000000000100000 - 00000000bfef0000 (usable)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000bfef0000 - 00000000bfeff000 (ACPI data)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000bfeff000 - 00000000bff00000 (ACPI NVS)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000bff00000 - 00000000c0000000 (usable)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000e0000000 - 00000000f0000000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000fec00000 - 00000000fec10000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 00000000fffe0000 - 0000000100000000 (reserved)
Apr 18 20:44:18 Linux1 kernel: BIOS-e820: 0000000100000000 - 0000000140000000 (usable)
Apr 18 20:44:18 Linux1 kernel: DMI present.
NODE2:Linux2
Apr 18 20:43:35 Linux2 kernel: o2net: connection to node Linux1 (num 0) at 192.168.3.131:7777 has been idle for 30.0 seconds, shutting it down.
Apr 18 20:43:35 Linux2 kernel: (swapper,0,0):o2net_idle_timer:1498 here are some times that might help debug the situation: (tmr 1334752985.559806 now 1334753015.306532 dr 1334752985.559360 adv 1334752985.559806:1334752985.559807 func (b651ea27:504) 1334752951.27068:1334752951.27323)
Apr 18 20:43:35 Linux2 kernel: o2net: no longer connected to node Linux1 (num 0) at 192.168.3.131:7777
Apr 18 20:43:56 Linux2 kernel: o2net: connection to node Linux1 (num 0) at 192.168.3.131:7777 shutdown, state 7
Apr 18 20:44:05 Linux2 kernel: (o2net,3480,0):o2net_connect_expired:1659 ERROR: no connection established with node 0 after 30.0 seconds, giving up and returning errors.
Apr 18 20:44:24 Linux2 avahi-daemon[4341]: Registering new address record for 192.168.0.136 on eth0.
Apr 18 20:44:26 Linux2 kernel: o2net: connection to node Linux1 (num 0) at 192.168.3.131:7777 shutdown, state 7
Apr 18 20:44:28 Linux2 last message repeated 2 times
Apr 18 20:44:28 Linux2 kernel: (o2hb-9938799A41,3564,1):o2dlm_eviction_cb:267 o2dlm has evicted node 0 from group 9938799A418642218A66FE77029DE473
Apr 18 20:44:28 Linux2 kernel: (ocfs2rec,19793,1):ocfs2_replay_journal:1605 Recovering node 0 from slot 0 on device (8,65)
Apr 18 20:44:30 Linux2 kernel: o2net: connection to node Linux1 (num 0) at 192.168.3.131:7777 shutdown, state 8
Apr 18 20:44:31 Linux2 kernel: (ocfs2rec,19793,0):ocfs2_begin_quota_recovery:407 Beginning quota recovery in slot 0
Apr 18 20:44:31 Linux2 kernel: (ocfs2_wq,3567,1):ocfs2_finish_quota_recovery:598 Finishing quota recovery in slot 0
Apr 18 20:44:31 Linux2 kernel: (dlm_reco_thread,3573,0):dlm_get_lock_resource:836 9938799A418642218A66FE77029DE473:$RECOVERY: at least one node (0) to recover before lock mastery can begin
Apr 18 20:44:31 Linux2 kernel: (dlm_reco_thread,3573,0):dlm_get_lock_resource:870 9938799A418642218A66FE77029DE473: recovery map is not empty, but must master $RECOVERY lock now
Apr 18 20:44:31 Linux2 kernel: (dlm_reco_thread,3573,0):dlm_do_recovery:523 (3573) Node 1 is the Recovery Master for the Dead Node 0 for Domain 9938799A418642218A66FE77029DE473
以上信息在两台机器中会交换出现，说明并不是总是固定的一台机器对另外一台超时。
4) 根据message信息报错，应该是o2cb的idle时间超限导致的，，系统中O2CB服务的状态为：
[oracle@Linux1]service o2cb status
Driver for "configfs": Loaded
Filesystem "configfs": Mounted
Stack glue driver: Loaded
Stack plugin "o2cb": Loaded
Driver for "ocfs2_dlmfs": Loaded
Filesystem "ocfs2_dlmfs": Mounted
Checking O2CB cluster ocfs2: Online
Heartbeat dead threshold = 301
Network idle timeout: 30000 /此处单位为毫秒，正式message中报的30秒
Network keepalive delay: 2000
Network reconnect delay: 2000
Checking O2CB heartbeat: Active

linux
ios

推荐阅读

ios
【BZOJ-3144】切糕最小割-最大流

3144:[Hnoi2013]切糕TimeLimit:10SecMemoryLimit:128MBSubmit:1261Solved:700[Submit][St ... [详细]

蜡笔小新 2024-11-26 17:02:49
server
Nagios可视化插件开发指南 —— 配置详解

本文详细介绍了Nagios监控系统的配置过程，包括数据库的选择与安装、Nagios插件的安装及配置文件的解析。同时，针对常见的配置错误提供了具体的解决方法。 ... [详细]

蜡笔小新 2024-11-26 16:13:46
server
基于Workman的PHP即时通讯系统：支持单聊、群聊、视频会议及实时音视频功能

本文介绍了如何使用Workman框架构建一个功能全面的即时通讯系统，该系统不仅支持一对一聊天、群组聊天，还集成了视频会议和实时音视频通话功能，同时提供了红包发送等附加功能。 ... [详细]

蜡笔小新 2024-11-26 15:42:43
server
BeautifulSoup4：Python的HTML/XML解析利器

BeautifulSoup4 是一个功能强大的HTML和XML解析库，它能够帮助开发者轻松地从网页中提取信息。本文将介绍BeautifulSoup4的基本功能、安装方法、与其他解析工具的对比以及简单的使用示例。 ... [详细]

蜡笔小新 2024-11-26 14:44:14
server
雨中避雨问题（HDU2389）—— Hopcroft-Karp 算法应用

题目描述：给定 n 把雨伞和 m 个人，t 分钟后开始下雨。求在每个人只能使用一把雨伞的情况下，最多有多少人可以拿到雨伞。 ... [详细]

蜡笔小新 2024-11-26 14:35:41
server
Vue.js@2.6.10更新内置毛病处机制，Fundebug同步支撑响应毛病监控

择要：Fundebug的JavaScript毛病监控插件同步支撑Vue.js异步毛病监控。Vue.js从降生至今已5年，尤大在本年2月份宣布了严重更新，即Vue2.6。更新包含新增 ... [详细]

蜡笔小新 2024-11-26 13:58:45
server
Python 装饰器与装饰类详解

本文通过具体示例详细介绍了 Python 中的装饰器和装饰类的使用方法，包括带参数的装饰器和装饰类的应用场景。 ... [详细]

蜡笔小新 2024-11-26 13:53:48
server
HDU1085 捕获本·拉登!

问题描述众所周知，本·拉登是一位臭名昭著的恐怖分子，他已失踪多年。但最近有报道称，他藏匿在中国杭州！虽然他躲在杭州的一个洞穴中不敢外出，但近年来他因无聊而沉迷于数学问题，并声称如果有人能解出他的题目，他就自首。 ... [详细]

蜡笔小新 2024-11-26 12:42:38
server
如何在iOS 10中更改字体样式

随着苹果公司发布iOS 10，许多用户已经迫不及待地进行了系统更新。对于想要个性化手机界面的用户来说，了解如何在iOS 10中调整字体样式尤为重要。本文将详细介绍在不越狱的情况下，如何在iOS 10中调整字体大小和启用粗体文本。 ... [详细]

蜡笔小新 2024-11-26 11:22:02
server
企业级贝斯OA与工作流系统视频解析 - J2EE+JBPM+Flex+jQuery技术栈

本视频详细介绍了如何利用J2EE、JBPM 3.x/4.3、Flex流程设计器、jQuery以及授权认证机制构建高效的企业普及版贝斯OA及工作流管理系统。 ... [详细]

蜡笔小新 2024-11-26 11:10:48
server
BL55072/BL55075 应用笔记

BL550721、特点液晶驱动输出：Common输出4线，Segment输出36线内置显示寄存器364144bit2线串行接口（SCL,SDA）内置震荡电路内置液晶驱动电源电路13 ... [详细]

蜡笔小新 2024-11-26 10:37:59
server
正则表达式详解与应用

本文详细介绍了正则表达式的各种基础指令及其应用实例，帮助读者更好地理解和使用正则表达式。 ... [详细]

蜡笔小新 2024-11-26 06:49:24
server
ZOJ 2760 - 最大流问题

题目链接：How Many Shortest Paths。题目描述：给定一个包含n个节点的有向图，通过一个n*n的矩阵来表示。矩阵中的a[i][j]值为-1表示从节点i到节点j无直接路径；否则，该值表示从i到j的路径长度。输入起点vs和终点vt，计算从vs到vt的所有不共享任何边的最短路径数量。如果起点和终点相同，则输出无穷大。 ... [详细]

蜡笔小新 2024-11-26 01:33:33
server
javascript——对象的概念——函数 1 (函数对象的属性和方法)

一、创建函数函数是一种对象：Function类是对象，可以通过Function实例化一个函数，不过最多的还是利用function来创建函数。方式一：利用Function类来实例化函 ... [详细]

蜡笔小新 2024-11-26 00:19:46
server
利用SVG和CSS3打造简洁向上的箭头图标

在开发H5页面时，为了减少资源请求和简化工作流程，直接使用SVG和CSS3来创建简单的图形元素是一个高效的选择。本文将探讨如何不依赖于第三方图标库，仅通过HTML和CSS技术实现一个‘返回顶部’的图标。 ... [详细]

蜡笔小新 2024-11-25 23:39:34

诗雨妈咪201101102002

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章