热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

phpfpm平滑重启为什么不平滑参数process_control_timeout

线上不出点问题,似乎今天就不是周五了.突然报警群里出现了某一条数据,反馈没有上报成功,中间流程执行完,后面没再执行了(细思极恐)无语。。。想了想刚才有发版,但是不是这个引起的还不确

线上不出点问题, 似乎今天就不是周五了.

突然报警群里出现了某一条数据, 反馈没有上报成功, 中间流程执行完, 后面没再执行了(细思极恐)

无语。。。

想了想刚才有发版, 但是不是这个引起的还不确定 (我们目前没有灰度发布-_-)

1. 从日志中丰富问题信息

首先我得确定下这条数据的到达时间, error日志查, 查看业务日志是否有过重要的打点信息, 通过从access日志里面, 定位到这条问题数据请求时间为 10:22:42

2. 10:22 我们做了什么?

通过查看聊天记录,10点多有个上线操作, 并且别的项目之前一上线就抱怨说可能就会有502出现, 由此我想我们发布服务中间可能操作了什么出现的问题

嗯。。万事不求人, 看下php-fpm的日志就知道啥时候上过线了(我们构建项目会重启fpm).

发现php-fpm.log文件内容:

[19-Apr-2019 10:22:42] NOTICE: Reloading in progress ...
[19-Apr-2019 10:22:42] NOTICE: reloading: execvp("/usr/local/php-fpm_9000/sbin/php-fpm", {"/usr/local/php-fp
m_9000/sbin/php-fpm"
, "--daemonize", "--fpm-config", "/usr/local/php-fpm_9000/etc/php-fpm.conf", "--pid", "/
usr/local/php-fpm_9000/var/run/php-fpm.pid"
})
[19-Apr-2019 10:22:42] NOTICE: [pool www] 'user' directive is ignored when FPM is not running as root
[19-Apr-2019 10:22:42] NOTICE: [pool www] 'user' directive is ignored when FPM is not running as root
[19-Apr-2019 10:22:42] NOTICE: [pool www] 'group' directive is ignored when FPM is not running as root
[19-Apr-2019 10:22:42] NOTICE: [pool www] 'group' directive is ignored when FPM is not running as root
[19-Apr-2019 10:22:42] NOTICE: using inherited socket fd=8, "127.0.0.1:9000"
[19-Apr-2019 10:22:42] NOTICE: using inherited socket fd=8, "127.0.0.1:9000"
[19-Apr-2019 10:22:42] NOTICE: fpm is running, pid 23324
[19-Apr-2019 10:22:42] NOTICE: ready to handle connections

nginx错误:

[error] 66#0: *10 recv() failed (104: Connection reset by peer) while reading response header from upstream

这个错误很熟悉吧,之前文章已经介绍过了.

3. 先下个结论,顺着这个想想

发布服务重启php-fpm, 导致的代码流程执行中断.

4. 等等, 应该是平滑重启,怎么会中断?

首先思考中断可能的原因:

  1. 代码某个点执行时间过长,timeout
  2. 资源不够,比如内存溢出中断
  3. 代码bug、异常
  4. 服务器断电
  5. ....

这些问题应该不会, 这个被中断的服务 没有依赖的服务请求, 也没有复杂的业务逻辑.(不要问为啥没问题,因为这是我写的+_+)

5. 平滑重启为什么不平滑?

借助着搜索引擎的力量, 找问题就变得傻瓜起来

  1. 记 php-fpm 重启导致的 程序执行中断问题 yq.aliyun.com/articles/22…

  2. 重启php-fpm时请求发生502错误的原因及解决:process_control_timeout www.04007.cn/article/439…

  3. PHP-FPM参数 www.jianshu.com/p/795a1a181…

  4. Graceful Restart (USR2) isn't very graceful bugs.php.net/bug.php?id=…

最后详细的读了下最后一篇向官方反馈的bug, php-fpm的平滑重启不平滑

其中目前建议:

[2013-02-13 15:57 UTC] phpbugs at oops dot mooo dot com
Try setting process_control_timeout to something higher than 0.

process_control_timeout 参数解释

参数含义是 设置子进程接受主进程复用信号的超时时间. 控制子进程处理来自master的信号的时间,默认为0.如果正在处理请求, 很可能会收到错误报警。建议将此参数设置为相同的值 request_terminate_timeout,以便worker有时间完成处理请求。

验证

echo 1;sleep(10);echo 3;

访问中, 进行 kill -USR2 10 报错:

将 php-fpm.conf 的 process_control_timeout 配置为20

进行 kill -USR2 11

正常输出结果.

结论

后续是否有副作用还需要在生产环境验证

服务发布优化也不仅于此

为什么要每次重启fpm

比如能不能用其他方式使缓存失效呢?

转:https://juejin.im/post/5cb957d4f265da03b57b53da



推荐阅读
  • 本文详细介绍了Oracle RMAN中的增量备份机制,重点解析了差异增量和累积增量备份的概念及其在不同Oracle版本中的实现。通过对比两种备份方式的特点,帮助读者选择合适的备份策略。 ... [详细]
  • 本文详细解析 Skynet 的启动流程,包括配置文件的读取、环境变量的设置、主要线程的启动(如 timer、socket、monitor 和 worker 线程),以及消息队列的实现机制。 ... [详细]
  • 本文档提供了首次周测的答案解析,涵盖特殊符号、命令作用、路径说明以及实战练习等内容。 ... [详细]
  • 解决远程桌面连接时的身份验证错误问题
    本文介绍了如何解决在尝试远程访问服务器时遇到的身份验证错误,特别是当系统提示‘要求的函数不受支持’时的具体解决步骤。通过调整Windows注册表设置,您可以轻松解决这一常见问题。 ... [详细]
  • 华为云openEuler环境下的Web应用部署实践
    本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤,包括配置yum源、安装Apache、MariaDB、PHP及其相关组件,并完成WordPress的安装与配置过程。 ... [详细]
  • 在Linux系统中使用EncFS实现文件夹加密
    为了保护个人隐私或敏感数据不被未经授权的访问,可以通过加密技术来增强安全性。本文介绍如何在Linux系统上使用EncFS工具创建和管理加密文件夹,以确保即使在系统登录状态下,特定文件夹中的数据也保持加密状态。 ... [详细]
  • 本文详细介绍了在MyBatis框架中如何通过#和$两种方式来传递SQL查询参数。使用#方式可以提高执行效率,而使用$则有助于在复杂SQL语句中更好地查看日志。此外,文章还探讨了不同场景下的参数传递方法,包括实体对象、基本数据类型以及混合参数的使用。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 利用Python在DragonBoard 410c上解析GPS数据获取位置信息
    本文介绍了如何在DragonBoard 410c开发板上使用Python脚本来解析GPS报文,从而获取精确的位置信息。DragonBoard 410c集成了GPS、Wi-Fi和高性能GPU,非常适合用于各种物联网项目。 ... [详细]
  • 本文详细介绍了如何处理Oracle数据库中的ORA-00227错误,即控制文件中检测到损坏块的问题,并提供了具体的解决方案。 ... [详细]
  • 本文将详细介绍如何配置并整合MVP架构、Retrofit网络请求库、Dagger2依赖注入框架以及RxAndroid响应式编程库,构建高效、模块化的Android应用。 ... [详细]
  • 本文详细介绍了Apache Spark 2.2.0版本中集群模式的基本概念和工作流程,包括如何通过集群管理器分配资源,以及Spark应用程序在集群中的运行机制。链接:http://spark.apache.org/docs/2.2.0/cluster-overview.html ... [详细]
  • STM32代码编写STM32端不需要写关于连接MQTT服务器的代码,连接的工作交给ESP8266来做,STM32只需要通过串口接收和发送数据,间接的与服务器交互。串口三配置串口一已 ... [详细]
  • Windows环境下Oracle数据库迁移实践
    本文详细记录了一次在Windows操作系统下将Oracle数据库的控制文件、数据文件及在线日志文件迁移至外部存储的过程,旨在为后续的集群环境部署做好准备。 ... [详细]
  • 本文详细介绍了MySQL InnoDB存储引擎中的Redo Log和Undo Log,探讨了它们的工作原理、存储方式及其在事务处理中的关键作用。 ... [详细]
author-avatar
cl有倪幸福
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有