Qunar大讲堂：深入解析问题排查与解决方案

作者：hareleemu_699 | 来源：互联网 | 2024-11-08 21:18

近日，技术学院负责人委托我负责维护包括大讲堂和积分管理系统在内的几个平台。尽管这些系统的功能已经相当成熟且不再进行新功能的开发，但大讲堂系统自上线以来，每隔一段时间就会出现故障，影响了学员的学习体验。为了解决这一问题，我们将从多个角度深入分析其原因，并探讨有效的解决方案。

1. 问题背景

前不久技术学院负责人让我帮助维护下⼤讲堂、积分管理等⼏个系统。这些系统功能都已经很稳定，也不会再有新的功能开发，但是⼤讲堂系统自上线后，每过⼀段时间就会出错，导致学员⽆法报名课程，希望我帮助解决下。这种累积下来的问题解决起来⽐较难，但是对能⼒提升帮助很大，我欣然接受了，所以就有了这次“艰苦”的问题排查和解决之旅。

2. 解决思路

本人未参加过大讲堂和积分系统的开发，解决问题⾸先要最⼤化的了解系统背景、问题发⽣时的系统表现等信息。技术学院的同事和我说，负责系统的开发⼈员已经换过⼏波了，现在基本已经找不到了解系统的开发⼈员了，但是也反馈了以下信息：

1、系统是16年公司应届⽣培训时做的项⽬。2、其他系统运⾏良好，就是⼤讲堂系统偶尔会报错，导致学员⽆法报名，重启下就好了，果然是“重启⼤法”好啊。3、系统出错的频率不⾼，但是貌似很有规律，⼤半个⽉左右出现⼀次。根据以上描述，特别是出错后“重启⼤法”特别有效，出错频率基本固定，通过这两点基本上可以断定是资源泄露导致的问题。既然确定是资源泄露问题，对于 Java 应⽤来说排查⽅向也就确定为以下2个⽅向：1、对象泄露2、线程泄露

3. 处理过程

前文提过本人并未参与项目开发，所以整个排查大部分是通过 linux 和 jvm 的⼀些命令行辅助功能来进行的，下面是整个排查过程：1、首先通过 jps 确定 Java 应用的进程 idsudo -u tomcat jps -lv | grep qtscore

2、排查内存泄露

通过持续观察 GC 日志文件 /home/q/www/qtscore/log/gc.log 文件，发现 GC 执行频率正常，特别是 Full GC 执行也并不频繁，虽然内存使用量在持续增长，但是并不明显。

为了确认业务代码是否存在泄漏，通过 jmap 查看了堆内对象分布情况，切记此命令会导致进程暂停，如果是 qps 高或者响应时间要求高的应用慎用：sudo -u tomcat jmap –F -histo 11035

这里只截取了⼀部分，内存占用量和数量靠前的并无业务代码。到这⼀步，基本初步排除内存泄露的可能性。

3、排查线程泄露

top -H -p 11035

通过结果可以看出线程已经高达4038，应用中dubbo线程池默认配置是200个线程，tomcat线程池配置也是200个线程，所以这个线程数明显不合理。参照另外一个同等应用，其线程数未超过500，所以可以初步判断系统存在线程泄露，下⼀步只能查看线程栈信息了：

sudo -u tomcat jstack -l 11035 > /tmp/qtscore_stack.log

系统中存在100多个“New I/O boss"线程，这个应该是 netty 线程池的 boss 线程，到这里基本上可以确认是线程池泄露引起的问题了，但是究竟是哪段代码引起的，线程栈中并无业务相关代码，只是 netty 线程池的代码，所以无法判断出引起问题的代码源头，只能先看看系统日志中是否有价值的信息了，发现系统日志中频繁报以下错误：

找到对应的源代码进行查看，发现这是⼀个 dubbo 服务接口，而 dubbo 底层用的就是 netty，种种迹象表明问题应该就出在这里。仔细分析代码后，发现这个 dubbo 接口抛出的异常 QtalkQueryException，居然没有通过 api 暴露给调用方，也就是说调用方是无法正确反序列化这个异常的。初步推测可能就是这个原因导致 dubbo 未能正确处理线程池，导致线程池泄露了。将 QtalkQueryException 改为抛出 IllegalStateException 异常，发布上线，满怀期待地等着问题被完美解决。过了一个星期后，通过 top 命令查看进程的线程数，发现线程数又飙升到1千1百多了，看来问题还是没有解决，只能再排查了，但是基本上可以确定是线程泄露问题，而且是 netty 引起的，可是线程栈中 netty 的 worker 线程栈中没有任何业务相关的代码，应该是代码间接用到了 netty 线程池，但是一时没有了头绪。只有找同事咨询一下了，和几个同事讨论后，大家都认为最有可能用到线程池的就是异步请求，特别是一些HTTP客户端，根据这个思路对代码进行排查后，发现系统中有如下代码：

这个 com.ning.http.client.AsyncHttpClient 底层用到了 netty 线程池，这个用法存在明显错误，AsyncHttpClient 实例应该重用，而不应该每次使用时都创建一个。修改代码后重新发布上线，一周后再统计应用线程数，发现线程数稳定在350个左右，确认问题得到了解决。但是故事还没有结束，个人觉得既然应用报错，日志应该有所体现才对，难道是被其他异常淹没了？所以重新排查了出错日期的日志，果然发现了以下错误信息：

通过系统命令 ulimit –a 发现系统最大用户线程数是4096，所以问题是创建的线程超过了系统最大用户线程数限制。

4. 经验总结

回顾这次问题排查经历，其实这个问题排查起来并不难，最初的排查方向也是对的，但是整个过程还是花费了很长时间。回顾整个过程，总结出以下经验和教训：

大规模使用的基础组件（例如：Dubbo）不容易有问题，即使有问题也会被及时修复，所以还是要多分析自己编写的代码。
排查问题首先要仔细分析系统日志，报错的地方⼀般也就是引起问题的源头，遵循和重视这个原则，通常可以大大提高排查问题的效率。

推荐阅读

php
深入理解父组件与子组件的引用和访问

本文详细介绍了如何在Vue.js中通过$children和$refs属性实现父组件对子组件的访问，并提供了具体的代码示例及最佳实践。 ... [详细]

蜡笔小新 2024-12-28 13:15:10
数组
LeetCode 540：有序数组中的唯一元素

来源：力扣（LeetCode），链接：https://leetcode-cn.com/problems/single-element-in-a-sorted-array。题目要求在仅包含整数的有序数组中，找到唯一出现一次的元素，并确保算法的时间复杂度为 O(log n) 和空间复杂度为 O(1)。 ... [详细]

蜡笔小新 2024-12-28 13:14:07
数组
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
int
解决 IIS 中 PHP 页面无法访问的问题

本文介绍如何解决在 IIS 环境下 PHP 页面无法找到的问题。主要步骤包括配置 Internet 信息服务管理器中的 ISAPI 扩展和 Active Server Pages 设置，确保 PHP 脚本能够正常运行。 ... [详细]

蜡笔小新 2024-12-28 11:54:54
int
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
int
周期性出现的时间戳字段异常问题

探讨一个老旧 PHP MySQL 系统中，时间戳字段不定期出现异常值的问题及其可能原因。 ... [详细]

蜡笔小新 2024-12-28 11:46:54
int
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
bit
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
bit
郑州大学在211高校中的地位与排名解析

本文将详细解读郑州大学作为一所位于河南省的211和双一流B类高校，在全国211高校中的地位与排名，帮助高三学生更好地了解这所知名学府的实力与发展前景。 ... [详细]

蜡笔小新 2024-12-28 10:08:34
function
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
function
优化ASM字节码操作：简化类转换与移除冗余指令

本文探讨如何利用ASM框架进行字节码操作，以优化现有类的转换过程，简化复杂的转换逻辑，并移除不必要的加0操作。通过这些技术手段，可以显著提升代码性能和可维护性。 ... [详细]

蜡笔小新 2024-12-28 09:35:00
function
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
function
电子元件封装库：三极管、MOS管及部分LDO（含3D模型）

本资源汇集了常用的插件和贴片三极管、MOS管以及部分LDO的封装，涵盖TO和SOT系列。所有封装均配有高质量的3D模型，共计96种，满足日常设计需求。 ... [详细]

蜡笔小新 2024-12-28 09:05:19
function
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
function
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28

hareleemu_699

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章