当前位置: 开发笔记 > 运维 > 正文

logfilesync等待超高一例

作者：没有丝袜姑娘 | 来源：互联网 | 2018-06-05 21:00

这是3月份某客户的情况，原因是服务器硬件故障后进行更换之后，业务翻译偶尔出现提交缓慢的情况。我们先来看下awr的情况。我们可以看到，该系统的loadprofile信息其实并不高，每秒才21个transaction。先来看看top5events：从top5event，我们可以发现，lo

这是3月份某客户的情况，原因是服务器硬件故障后进行更换之后，业务翻译偶尔出现提交缓慢的情况。我们先来看下awr的情况。我们可以看到，该系统的load profile信息其实并不高，每秒才21个transaction。先来看看top5events：从top 5event，我们可以发现，lo

这是3月份某客户的情况，原因是服务器硬件故障后进行更换之后，业务翻译偶尔出现提交缓慢的情况。我们先来看下awr的情况。

我们可以看到，该系统的load profile信息其实并不高，每秒才21个transaction。先来看看top5events：

从top 5event，我们可以发现，log file sync的avg wait非常之高，高达124ms。大家应该知道，对于绝大多数情况

下，log file sync的平均等待时间是小于5ms的，这个值有点高的离谱。

我们知道，产生log file sync等待的原因有很多。关于log file sync，tanel Poder大神写过一篇很牛的pdf，大家可以参考下。

这里我主要引用大神的图，来简单描述产生log file sync的原因可能有哪些，首先我们来看下从前端进程提交到最后得到反馈时，以及中间处理的整个流程情况：

从上图中，我们可以清楚的看到整个流程。这里可以进行简单的描述：

1、当user发起一个commit后；

2、前端进程（即Server 进程）会post一个信息给lgwr进程，告诉它，你应该去写redo buffer了。

3、当LGWR进程得到指示后，开始调用操作系统函数进行物理写，在进行物理写的这段时间内，会出现

log file parallel write等待。这里或许有人会有疑问，为什么12c之前只有一个lgwr进程，这里却是parallel

write呢？这里需要说明一下，lgwr进程在将redo buffer中的数据写出到log file文件中时，也是以batch方式

进程的（实际上，dbwN进程也是batch的模式），有相关的隐含参数控制。

4、当LGWR完成wrtie操作之后，LGWR进程会返回一个信息给前端进程（Server进程），告诉它，我已经写完了，

你可以完成提交了。

5. user 完成commit操作。

这里补充一下，这是由于Oracle 日志写优先的原则，假设在commit之前redo buffer的相关entry信息不立即写到redo

log file中，那么如果数据库出现crash，那么这是会丢数据的。

从上面的流程图，我们其实也可以看到，log file sync和log file parallel write可以说是相互关联的。换句话讲，如果log file parallel write的时间很长，那么必然导致log file sync等待时间拉长。

我们假设log file parallel write 等待很高，那么着可能通常是物理磁盘IO的问题，如下：

我们从上图可以发行，如果LGWR进程在完成IO操作的过程中时间过长，那么将导致log file parallel write等待升高。

实际上，在整个当用户发出commit到完成commit的过程中，涉及到很多环节，并不是仅仅只有物理IO会影响log file sync/log file parallel write。还有CPU也会影响Log file sync和log file parallel write。我们再来看个图：

我们可以看到，上述流程中的4个环节都涉及到CPU的调度，如果在整个事务commit的过程中，系统CPU出现极度紧张，那么这可能会导致LGWR进程无法获得CPU，会进行排队等待，显然，这势必将导致log file sync或log file parallel write等待

的升高。

备注：Oracle中还可以通过隐含参数_high_priority_processes 来控制进程获取CPU的优先级。在一个cpu相对缺乏的系统中，可以通过设置该参数来进行缓解。

最后我们再回到这个案例中来，客户这里的环境，我们是可以排除CPU问题。那么最大的嫌疑可能就是存储本身的问题，导致IO很慢，然而，实际上这也是可以排除的，大家其实应该注意到前面的Top 5 event了，log file parallel write的平均等待

时间并不高，如果是存储IO问题，那么这个event的平均等待时间应该是比较高才对。

我们可以看到log file sync和log file parallel write的waits都是差不多的。但是log file parallel write的avg wait time仅仅只有4ms，这是一个正常的值。也就是说可以我们排除存储IO问题。

那么问题是什么呢？我们利用Oracle MOS提供的脚本来查询下log file sync和log file parallel write等待的分布情况：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 INST_ID EVENT WAIT_TIME_MILLI WAIT_COUNT ---------- ---------------------------------------- --------------- ---------- 1 log file sync 1 259306 1 log file sync 2 2948999 1 log file sync 4 1865918 1 log file sync 8 173699 1 log file sync 16 43194 1 log file sync 32 6095 1 log file sync 64 1717 1 log file sync 128 2458 1 log file sync 256 5180 1 log file sync 512 9140 1 log file sync 1024 558347 1 log file parallel write 1 5262 1 log file parallel write 2 4502377 1 log file parallel write 4 1319211 1 log file parallel write 8 46055 1 log file parallel write 16 23694 1 log file parallel write 32 3149 1 log file parallel write 64 283 1 log file parallel write 128 267 1 log file parallel write 256 157 1 log file parallel write 512 73 1 log file parallel write 1024 42 1 log file parallel write 2048 39 1 log file parallel write 4096 103 1 log file parallel write 8192 21 1 log file parallel write 16384 22 1 log file parallel write 32768 190 1 log file parallel write 65536 1

大家可以简单的计算一下，其实log file sync和log file parallel write 等待事件，几乎99%左右的平均等待时间都是

小于等于4ms的，这是属于正常的情况；然而有少数的情况其等待时间是很长的，例如log file sync最高的单次等待

时间高达1秒，由于偶尔的等待很高，因此将整个log file sync的平均等待时间拉高了。

到最后，问题就比较清楚了，我认为这是由于主机和存储之间的链路可能出现异常或不稳定导致。临时的解决方法

将redo logfile 挪到本地磁盘，解决了该问题。

后记：经客户后面确认，确实是存储光纤线接口松了。哈哈

服务器

推荐阅读

server
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
压力测试
实现高并发连接的优化方法

探讨如何通过编程技术实现100个并发连接，解决线程创建顺序问题，并提供高效的并发测试方案。 ... [详细]

蜡笔小新 2024-12-28 09:58:40
压力测试
梦幻西游挖图奇遇：70级项链意外触发晶清诀，3000W轻松到手

在梦幻西游中，挖图是一项备受欢迎的活动，无论是小宝图还是高级藏宝图，都吸引了大量玩家参与。通常情况下，小宝图的数量保证了稳定的收益，但特技装备的出现往往能带来意想不到的惊喜。本文讲述了一位玩家通过挖图获得70级晶清项链的故事，最终实现了3000W的游戏币逆袭。 ... [详细]

蜡笔小新 2024-12-27 17:20:47
压力测试
RESTful API 与传统接口的主要区别

本文探讨了 RESTful API 和传统接口之间的关键差异，解释了为什么 RESTful API 在设计和实现上具有独特的优势。 ... [详细]

蜡笔小新 2024-12-27 15:33:42
压力测试
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
server
如何配置Unturned服务器及其消息设置

本文详细介绍了Unturned服务器的配置方法和消息设置技巧，帮助用户了解并优化服务器管理。同时，提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]

蜡笔小新 2024-12-27 13:47:38
server
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
port
MQTT技术周报：硬件连接与协议解析

本周开发笔记重点介绍了在新项目中使用MQTT协议进行硬件连接的技术细节，涵盖其特性、原理及实现步骤。 ... [详细]

蜡笔小新 2024-12-27 11:30:44
port
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
port
邮件(带附件，模拟文件上传，跨服务器)发送核心代码

邮件(带附件，模拟文件上传，跨服务器)发送核心代码1.测试邮件发送附件接口***测试邮件发送附件*@parammultipartFile*@return*@RequestMappi ... [详细]

蜡笔小新 2024-12-27 11:22:37
stdout
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
port
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
server
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
server
解读MySQL查询执行计划的详细指南

本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析，您将掌握优化查询性能的关键技巧，了解各种访问类型和额外信息的含义。 ... [详细]

蜡笔小新 2024-12-26 20:10:30
stdout
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05

没有丝袜姑娘

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章