热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

线上PHP问题排查思路与实践

前几天,在一淘网,腾讯网媒和微博商业技术联合组织的技术分享大会上,我分享了《在线PHP问题排查思路与实践》。此博文除了对PPT提供下载外,还会对ppt做简单的注释说明。主题分为三部分,常见问题,解决思路和案例分析。
前言

前几天,在一淘网,腾讯网媒和微博商业技术联合组织的技术分享大会上,我分享了《在线PHP问题排查思路与实践》。此博文除了对PPT提供下载外,还会对ppt做简单的注释说明。主题分为三部分,常见问题,解决思路和案例分析。

常见问题

不同用户看到的错误可能不一样。一般用户看到的错误都是表层的现象。如,裸奔的错误页面:
luoben

这种裸奔的错误页面,经常被用户成为乱码,太丑太暴漏。甚至把一些不应该暴漏的敏感信息都暴漏了。如,nginx版本号,文件路径等。为了解决这些问题,设计师们又做了有情调的错误页。但是,错误五花八门,并不是一个错误页能掩盖的。
对于工程师,咱们看问题可能会更深入些。能看到问题背后的问题。如,看到502错误,他们会想到可能是后端PHP-FPM进程出现问题。如后端的PHP-FPM进程已经死掉,nginx无法连接到PHP-FPM进程。

处理思路

jiejuesilu

虽然问题五发八门,但是有一套解决思路可以整体处理这些问题。解决思路大概分为如下几个部分:恢复服务,保留现场,排查问题和验证。下面对这几部分分别加以说明。

恢复服务

huifufuwu

恢复服务,顾名思义。就是赶紧让用户感受不到错误的存在。为什么这样做呢?原因有如下两个。第一,如果不这样做,用户看到的是错误页面,用户体验不好。可能还会对公司带来直接的经济损失。 第二,如果不这样做,年底你的奖金就飞了。那如何恢复服务呢?下面说下不同场景下的几种操作方式。

摘机:所谓摘机就是摘除有问题的机器。这种操作的应用场景是,当提供服务的多台机器中,有部分机器出现问题时,可以这样操作。这就要求我们,对于线上运行的服务,必须保障有多台机器运行相同的服务,多台机器间没有依赖关系。其中一台或者几台被摘除不会影响到其他机器。

回滚:所谓回滚就是恢复到操作之前的状态。这种操作的应用场景是,当进行了上线或者软件配置修改后,出现了问题。

重启:当你的服务运行一段时间,突然出现了异常。如进程占用了cpu 100%。你可以通过重启的方式来解决。重启的过程就是一个资源释放和重新分配的过程。

降级:当你的网站的访问量超出了你服务器的负载时,网站就会出现问题。这个时候,就需要保证主要功能可用。把损失降到最低。

当然,网站出现问题时,并不是教条的套用,做单一的操作来恢复服务。而是根据情况进行相应的操作。遇到问题时,可能需要进行多个恢复服务的操作。但是,所有的这些操作的原则就是,把损失降到最低。

保留现场

baoliuxianchang

其实问题排查和警察破案过程是一样的。想想警察是如何保留现场的?商场内安装摄像头。不方便安装摄像头的场所(洗头房),就在场所外的大街上安装摄像头。虽然有监控,但是还有会有案件发生。案件出现后,他们会保护案发现场。其实我们对现场的保留,也是从这几方面入手。

系统内部日志:这就好比在商场内安装摄像头。如果有良好的日志记录,那就可以记录系统运行过程中出现的一些异常。良好的日志系统,也是我们在选择开源软件时的重要标准。

系统外部监控:这个就好比洗头房外大街上的监控。在系统中,总有一些地方是你不方便或者没权增加日志记录的。如,咱们在调用第三方服务的时候,肯定你也不方便在第三方服务中添加日志。这个时候,我们就需要增加对第三方服务的监控和日志记录。能时刻知道第三方服务是否可用。

保留运行状态:这个就是案发现场的保留。比如,你发现一个进程占用cpu 100%。你为了解决问题,贸然的重启进程,就是破坏了现场。

保留现场和恢复服务并没有一个明确的先后关系。他们共同是问题排查的基础。恢复了服务,你才可用安心的进行问题排查。保留了现场,你才有问题排查的数据来源。有时候,保留现场和恢复服务会有冲突。如,你就一台机器提供服务,这台机器上出现了问题,这个时候要如何处理呢?这个时候建议最短的时间备份现场,然后尽快的恢复服务。如,一个进程占用cpu 100%,那你就可以用 gcore 把进程生成core文件,然后重启进程。

对于PHP开发的系统,为了实现更健壮的日志系统,我这里有个小tip。可以使用register_shutdown_function 和 error_get_last。具体的可以查看。博文地址

所有的这些保留现场的操作,就是为之后的问题排查提供数据。

排查问题

排查问题的过程才是展现你福尔摩斯风采的时候。问题排查的过程就是用你掌握的知识和工具去分析数据的过程。现在,数据已经有了。知识和工具都需要掌握哪些呢?

知识

知识的海洋是浩瀚的。这里我只能做个大概的分类。

语言:PHP语言方面,除了了解基本语法以外,还要对PHP的内核有所了解。对PHP内核有所了解后,你就大概了解了php的执行流程。出现问题,你就可以大概推测是那个环节出现了问题。发现问题后,你可以根据掌握的知识分析出大概那里出现了问题。比如,当一个PHP进程占用cpu 100%。你就可以通过掌握的PHP内核的数据结构找出是大概那里的代码出现了问题。参见博文《当cpu飙升时,找出php中可能有问题的代码行

网络:咱们毕竟是搞网络通信编程的。对网络通信方面的知识有所了解,是必须的。尤其是对一些协议要有大概的了解。通信协议的重要性,并不仅仅局限于面试时撑撑场面,更重要的是用来解决问题。查看博文 《tcpdump 和 wireshark组合拳,揪出有问题的机器

软件:对搭建系统所使用软件要有所了解。如对memcached的内存管理策略有所了解的话,可以让你更好的对其调优,充分的利用内存,减少内存浪费。

系统:避免咱们搭建的系统运行在操作系统上。那就需要对操作系统所有了解。如,权限,系统日志位置,oom等。

工具

工欲善其事必先利其器。网络上有一张图总结的很好,把常用的工具总结的很全。

屏幕快照 2015-09-02 上午9.09.27

如果你把所有的工具都能很好的掌握,你就是神啦。

案例分析

案例分析中给出了三个案例。涉及网络,语言和系统三个方面。

网络:使用tcpdump排查mysql数据库tps飙升的问题

语言:php进程导致服务器cpu 100问题追查过程

系统:一个echo引起的进程崩溃

更多案例请查看 http://www.bo56.com/category/troubleshoot/


推荐阅读
  • 深入探讨Web服务器与动态语言的交互机制:CGI、FastCGI与PHP-FPM
    本文详细解析了Web服务器(如Apache、Nginx等)与动态语言(如PHP)之间通过CGI、FastCGI及PHP-FPM进行交互的具体过程,旨在帮助开发者更好地理解这些技术背后的原理。 ... [详细]
  • 深入理解FastDFS
    FastDFS是一款高效、简洁的分布式文件系统,广泛应用于互联网应用中,用于处理大量用户上传的文件,如图片、视频等。本文探讨了FastDFS的设计理念及其如何通过独特的架构设计提高性能和可靠性。 ... [详细]
  • 使用Solr从MySQL导入数据构建全量索引
    为了更好地掌握Solr的各项功能,本文档将在本地Windows环境中演示如何从MySQL数据库中导入数据至Solr,并构建全量索引。这将有助于开发者熟悉Solr的数据处理流程,尤其是在无法直接在生产服务器上进行实践的情况下。 ... [详细]
  • 本文详细介绍了在PHP中实现轮询的各种方法,包括短轮询、长轮询以及结合数据库的应用场景,适合不同需求的技术人员参考。 ... [详细]
  • 本文探讨了Go语言(Golang)的学习价值及其在Web开发领域的应用潜力,包括其独特的语言特性和为什么它是现代软件开发的理想选择。 ... [详细]
  • 2023年最新:PHP本地端口配置详解
    本文详细介绍了PHP在不同环境下的本地端口配置方法及常见问题解决方案,帮助开发者更好地理解和配置PHP端口。 ... [详细]
  • 本文介绍了一种有效的方法来监控Web服务器(如Nginx)和数据库服务器(如MySQL)的服务状态,通过端口、进程和服务响应等多种方式确保服务的正常运行。 ... [详细]
  • 对于初次购买阿里云服务器的新手用户来说,如何高效地利用服务器资源并成功部署网站是一个重要的课题。本文将详细指导您完成从购买服务器到网站上线的六个关键步骤。 ... [详细]
  • 本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法,旨在减少数据库的频繁访问,提高应用程序的响应速度。 ... [详细]
  • Windows 7 64位系统下MySQL最新版安装指南
    本文详细介绍了在Windows 7 64位操作系统中安装最新版本MySQL服务器的过程,包括安装前的准备、具体步骤及注意事项,旨在帮助读者顺利安装并配置MySQL。 ... [详细]
  • Docker基础指南:快速入门与实践
    Docker自发布以来便受到广泛欢迎,其提供的容器化技术极大地简化了软件开发和部署流程。本文旨在帮助初学者快速掌握Docker的基本操作,包括安装、运行容器、创建和管理镜像等内容,以激发大家对Docker的兴趣。 ... [详细]
  • 学生信息管理系统架构设计与实现
    随着教育机构规模的扩大,学生人数的增多带来了信息管理上的挑战,传统的人工处理方式不仅耗时费力,且效率低下。为此,本文档提出了一种基于现代技术的学生信息管理系统的设计方案,旨在提高信息处理的效率和准确性。 ... [详细]
  • 本文详细介绍了如何在Linux系统中安装和配置Node.js,包括从官方下载、编译安装到运行基本示例的全过程。 ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 本文详细探讨了 Java 中 Daemon 线程的特点及其应用场景,并深入分析了 Random 类的源代码,帮助开发者更好地理解和使用这些核心组件。 ... [详细]
author-avatar
LD系瑰精棂_142
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有