一次jvm调优过程

作者：等了哭了累了55 | 来源：互联网 | 2023-08-21 20:19

jvm调优实战前端时间把公司的一个分布式定时调度的系统弄上了容器云，部署在kubernetes，在容器运行的动不动就出现问题，特别容易jvm溢出，导致程序不可用，终端无法进入，日志

jvm调优实战

前端时间把公司的一个分布式定时调度的系统弄上了容器云，部署在kubernetes，在容器运行的动不动就出现问题，特别容易jvm溢出，导致程序不可用，终端无法进入，日志一直在刷错误，kubernetes也没有将该容器自动重启。业务方基本每天都在反馈task不稳定，后续就协助接手看了下，先主要讲下该程序的架构吧。
该程序task主要分为三个模块：
console进行一些cron的配置（表达式、任务名称、任务组等）；
schedule主要从数据库中读取配置然后装载到quartz再然后进行命令下发；
client接收任务执行，然后向schedule返回运行的信息（成功、失败原因等）。
整体架构跟github上开源的xxl-job类似，也可以参考一下。

1. 启用jmx和远程debug模式

容器的网络使用了BGP，打通了公司的内网，所以可以直接通过ip来进行程序的调试，主要是在启动的jvm参数中添加：

JAVA_DEBUG_OPTS=" -Xdebug -Xnoagent -Djava.compiler=NONE -Xrunjdwp:transport=dt_socket,address=0.0.0.0:8000,server=y,suspend=n "
JAVA_JMX_OPTS=" -Dcom.sun.management.jmxremote.port=1099 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false "

其中，调试模式的address最好加上0.0.0.0，有时候通过netstat查看端口的时候，该位置显示为127.0.0.1，导致无法正常debug，开启了jmx之后，可以初步观察堆内存的情况。

技术图片

堆内存（特别是cms的old gen），初步看代码觉得是由于用了大量的map，本地缓存了大量数据，怀疑是每次定时调度的信息都进行了保存。

2. memory analyzer、jprofiler进行堆内存分析

先从容器中dump出堆内存

jmap -dump:live,format=b,file=heap.hprof 58

技术图片

由图片可以看出，这些大对象不过也就10M，并没有想象中的那么大，所以并不是大对象的问题，后续继续看了下代码，虽然每次请求都会把信息放进map里，如果能正常调通的话，就会移除map中保存的记录，由于是测试环境，执行端很多时候都没有正常运行，甚至说业务方关闭了程序，导致调度一直出现问题，所以map的只会保留大量的错误请求。不过相对于该程序的堆内存来说，不是主要问题。

3. netty的方面的考虑

另一个小伙伴一直怀疑的是netty这一块有错误，着重看了下。该程序用netty自己实现了一套rpc，调度端每次进行命令下发的时候都会通过netty的rpc来进行通信，整个过程逻辑写的很混乱，下面开始排查。
首先是查看堆内存的中占比：

技术图片

可以看出，io.netty.channel.nio.NioEventLoop的占比达到了40%左右，再然后是io.netty.buffer.PoolThreadCache，占比大概达到33%左右。猜想可能是传输的channel没有关闭，还是NioEventLoop没有关闭。再跑去看一下jmx的线程数：

技术图片

达到了惊人的1000个左右，而且一直在增长，没有过下降的趋势，再次猜想到可能是NioEventLoop没有关闭，在代码中全局搜索NioEventLoop，找到一处比较可疑的地方。

技术图片

声明了一个NioEventLoopGroup的成员变量，通过构造方法进行了初始化，但是在执行syncRequest完之后并没有进行对group进行shutdownGracefully操作，外面对其的操作并没有对该类的group对象进行关闭，导致线程数一直在增长。

技术图片

最终解决办法：
在调用完syncRequest方法时，对ChannelBootStrap的group对象进行行shutdownGracefully

技术图片

提交代码，容器中继续测试，可以基本看出，线程基本处于稳定状态，并不会出现一直增长的情况了

技术图片

还原本以为基本解决了，到最后还是发现，堆内存还算稳定，但是，直接内存依旧打到了100%，虽然程序没有挂掉，所以，上面做的，可能仅仅是为这个程序续命了而已，感觉并没有彻底解决掉问题。

技术图片

4. 直接内存排查

第一个想到的就是netty的直接内存，关掉，命令如下：

-Dio.netty.noPreferDirect=true -Dio.netty.leakDetectiOnLevel=advanced

技术图片

查看了一下java的nio直接内存，发现也就几十kb，然而直接内存还是慢慢往上涨。毫无头绪，然后开始了自己的从linux层面开始排查问题

5. 推荐的直接内存排查方法

5.1 pmap

一般配合pmap使用，从内核中读取内存块，然后使用views 内存块来判断错误，我简单试了下，乱码，都是二进制的东西，看不出所以然来。

pmap -d 58  | sort -n -k2
pmap -x 58  | sort -n -k3
grep rw-p /proc/$1/maps | sed -n &＃39;s/^\([0-9a-f]*\)-\([0-9a-f]*\) .*$/\1 \2/p&＃39; | while read start stop; do gdb --batch --pid $1 -ex "dump memory $1-$start-$stop.dump 0x$start 0x$stop"; done

这个时候真的懵了，不知道从何入手了，难道是linux操作系统方面的问题？

5.2 [gperftools]（https://github.com/gperftools/gperftools）

起初，在网上看到有人说是因为linux自带的glibc版本太低了，导致的内存溢出，考虑一下。初步觉得也可能是因为这个问题，所以开始慢慢排查。oracle官方有一个jemalloc用来替换linux自带的，谷歌那边也有一个tcmalloc，据说性能比glibc、jemalloc都强，开始换一下。
根据网上说的，在容器里装libunwind，然后再装perf-tools，然后各种捣鼓，到最后发现，执行不了，

pprof --text /usr/bin/java java_58.0001.heap

技术图片

看着工具高大上的，似乎能找出linux的调用栈，

6. 意外的结果

毫无头绪的时候，回想到了linux的top命令以及日志情况，测试环境是由于太多执行端业务方都没有维护，导致调度系统一直会出错，一出错就会导致大量刷错误日志，平均一天一个容器大概就有3G的日志，cron一旦到准点，就会有大量的任务要同时执行，而且容器中是做了对io的限制，磁盘也限制为10G，导致大量的日志都堆积在buff/cache里面，最终直接内存一直在涨，这个时候，系统不会挂，但是先会一直显示内存使用率达到100%。
修复后的结果如下图所示：

技术图片

总结

定时调度这个系统当时并没有考虑到公司的系统会用的这么多，设计的时候也仅仅是为了实现上千的量，没想到到最后变成了一天的调度都有几百万次。最初那批开发也就使用了大量的本地缓存map来临时存储数据，然后面向简历编程各种用netty自己实现了通信的方式，一堆坑都留给了后人。目前也算是解决掉了一个由于线程过多导致系统不可用的情况而已，但是由于存在大量的map，系统还是得偶尔重启一下比较好。

参考：
1.记一次线上内存泄漏问题的排查过程
2.Java堆外内存增长问题排查Case
3.Troubleshooting Native Memory Leaks in Java Applications

一次jvm调优过程

推荐阅读

编程
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32
io
系统数据实体验证异常：多个实体验证失败的错误处理与分析

在使用MVC和EF框架进行数据保存时，遇到了 `System.Data.Entity.Validation.DbEntityValidationException` 错误，表明存在一个或多个实体验证失败的情况。本文详细分析了该错误的成因，并提出了有效的处理方法，包括检查实体属性的约束条件、调试日志的使用以及优化数据验证逻辑，以确保数据的一致性和完整性。 ... [详细]

蜡笔小新 2024-11-11 16:54:45
io
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
io
Axublog 1.1.0 版本 c_login.php 文件中发现 SQL 注入安全漏洞

在 Axublog 1.1.0 版本的 `c_login.php` 文件中发现了一个严重的 SQL 注入漏洞。该漏洞允许攻击者通过操纵登录请求中的参数，注入恶意 SQL 代码，从而可能获取敏感信息或对数据库进行未授权操作。建议用户尽快更新到最新版本并采取相应的安全措施以防止潜在的风险。 ... [详细]

蜡笔小新 2024-11-09 13:37:09
text
装饰者模式（Decorator）：一种灵活的对象结构设计模式

装饰者模式（Decorator）是一种灵活的对象结构设计模式，旨在为单个对象动态地添加功能，而无需修改原有类的结构。通过封装对象并提供额外的行为，装饰者模式比传统的继承方式更加灵活和可扩展。例如，可以在运行时为特定对象添加边框或滚动条等特性，而不会影响其他对象。这种模式特别适用于需要在不同情况下动态组合功能的场景。 ... [详细]

蜡笔小新 2024-11-11 16:36:53
int
【Python 实战：汇率转换器 v1.02】

本项目通过Python编程实现了一个简单的汇率转换器v1.02。主要内容包括：1. Python的基本语法元素：（1）缩进：用于表示代码的层次结构，是Python中定义程序框架的唯一方式；（2）注释：提供开发者说明信息，不参与实际运行，通常每个代码块添加一个注释；（3）常量和变量：用于存储和操作数据，是程序执行过程中的重要组成部分。此外，项目还涉及了函数定义、用户输入处理和异常捕获等高级特性，以确保程序的健壮性和易用性。 ... [详细]

蜡笔小新 2024-11-11 16:34:26
io
Autofac高级应用实例解析

本文详细解析了Autofac在高级应用场景中的具体实现，特别是如何通过注册泛型接口的类来优化依赖注入。示例代码展示了如何使用 `builder.RegisterAssemblyTypes` 方法，结合 `typeof(IEventHandler).Assembly` 和 `Where` 过滤条件，动态注册所有符合条件的类，从而简化配置并提高代码的可维护性。此外，文章还探讨了这一方法在复杂系统中的实际应用及其优势。 ... [详细]

蜡笔小新 2024-11-11 15:48:02
io
华为云对象存储系统配置指南

本指南详细介绍了如何利用华为云对象存储服务构建视频点播（VoD）平台。通过结合开源技术如Ceph、WordPress、PHP和Nginx，用户可以高效地实现数据存储、内容管理和网站搭建。主要内容涵盖华为云对象存储系统的配置步骤、性能优化及安全设置，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-11-11 14:29:52
io
VS2019 在创建 Windows 恢复点时出现卡顿问题及解决方法

在使用 Visual Studio 2019 时，有时会在创建 Windows 恢复点时遇到卡顿问题。这可能是由于频繁的自动更新导致的，每次更新文件大小可能达到 1-2GB。尽管现代网络速度较快，但这些更新仍可能对系统性能产生影响。本文将探讨该问题的原因，并提供有效的解决方法，帮助用户提升开发效率。 ... [详细]

蜡笔小新 2024-11-11 13:52:39
io
飞秋软件的OA消息接口服务系统

为了提升单位内部沟通效率，我们开发了一套飞秋软件与OA系统的消息接口服务系统。该系统能够将OA系统中的审批、通知等信息自动同步至飞秋平台，确保员工在使用飞秋进行日常沟通的同时，也能及时获取OA系统的各类重要信息，从而实现无缝对接，提高工作效率。 ... [详细]

蜡笔小新 2024-11-11 13:44:09
int
深入解析：Synchronized 关键字在 Java 中对 int 和 Integer 对象的作用与影响

深入探讨了 `Synchronized` 关键字在 Java 中对 `int` 和 `Integer` 对象的影响。尽管初看此题似乎简单，但其实质在于理解对象的概念。根据《Java编程思想》第二章的观点，一切皆为对象。本文详细分析了 `Synchronized` 关键字在不同数据类型上的作用机制，特别是对基本数据类型 `int` 和包装类 `Integer` 的区别处理，帮助读者深入理解 Java 中的同步机制及其在多线程环境中的应用。 ... [详细]

蜡笔小新 2024-11-11 13:13:17
int
虚函数表指针vptr的功能测试与分析

类的虚函数调用依赖于虚函数表来实现。虚函数表是由编译器自动生成的一段内存区域，用于存储包含虚函数的类中每个虚函数的入口地址。这些入口地址本质上是指针类型，从而使得动态绑定成为可能。本文对虚函数表指针（vptr）的功能进行了详细的测试与分析，探讨了其在多态性和继承机制中的作用及其性能影响。 ... [详细]

蜡笔小新 2024-11-11 10:41:37
spring
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
int
如何撰写初级和高级前端开发者的专业简历

如何撰写初级和高级前端开发者的专业简历 ... [详细]

蜡笔小新 2024-11-09 08:36:22
jar
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32

等了哭了累了55

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章