当前位置: 开发笔记 > 编程语言 > 正文

如何进行一次年轻代GC长暂停问题的解决与思考

作者：黛萊美文婷 | 来源：互联网 | 2023-10-09 19:56

如何进行一次年轻代GC长暂停问题的解决与思考，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望

如何进行一次年轻代GC长暂停问题的解决与思考，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

问题描述

公司某规则引擎系统，在每次发版启动会手动预热，预热完成当流量切进来之后会偶发的出现一次长达1-2秒的年轻代GC（流量并不大，并且LB下的每一台服务都会出现该情况）

在这次长暂停之后，每一次的年轻代GC暂停时间又都恢复在20-100ms以内

2s虽然看起来不长，但是对比规则引擎每次10ms左右的响应时间来说，还是不可以接受的；并且由于该规则引擎响应超时，还会导致出单超时失败

问题分析

在分析该系统GC日志后发现，2s暂停发生在Young GC阶段，而且每次发生长暂停的Young GC都会伴随着新生代对象的晋升(Promotion)

核心JVM参数（Oracle JDK7）

-Xms10G
-Xmx10G
-XX:NewSize=4G
-XX:PermSize=1g
-XX:MaxPermSize=4g
-XX:+UseConcMarkSweepGC

启动后第一次年轻代GC日志

2020-04-23T16:28:31.108+0800: [GC2020-04-23T16:28:31.108+0800: [ParNew2020-04-23T16:28:31.229+0800: [SoftReference, 0 refs, 0.0000950 secs]2020-04-23T16:28:31.229+0800: [WeakReference, 1156 refs, 0.0001040 secs]2020-04-23T16:28:31.229+0800: [FinalReference, 10410 refs, 0.0103720 secs]2020-04-23T16:28:31.240+0800: [PhantomReference, 286 refs, 2 refs, 0.0129420 secs]2020-04-23T16:28:31.253+0800: [JNI Weak Reference, 0.0000000 secs]
Desired survivor size 214728704 bytes, new threshold 1 (max 15)
- age   1:  315529928 bytes,  315529928 total
- age   2:   40956656 bytes,  356486584 total
- age   3:    8408040 bytes,  364894624 total
: 3544342K->374555K(3774912K), 0.1444710 secs] 3544342K->374555K(10066368K), 0.1446290 secs] [Times: user=1.46 sys=0.09, real=0.15 secs]

长暂停年轻代GC日志

2020-04-23T17:18:28.514+0800: [GC2020-04-23T17:18:28.514+0800: [ParNew2020-04-23T17:18:29.975+0800: [SoftReference, 0 refs, 0.0000660 secs]2020-04-23T17:18:29.975+0800: [WeakReference, 1224 refs, 0.0001400 secs]2020-04-23T17:18:29.975+0800: [FinalReference, 8898 refs, 0.0149670 secs]2020-04-23T17:18:29.990+0800: [PhantomReference, 600 refs, 1 refs, 0.0344300 secs]2020-04-23T17:18:30.025+0800: [JNI Weak Reference, 0.0000210 secs]
Desired survivor size 214728704 bytes, new threshold 15 (max 15)
- age   1:   79203576 bytes,   79203576 total
: 3730075K->304371K(3774912K), 1.5114000 secs] 3730075K->676858K(10066368K), 1.5114870 secs] [Times: user=6.32 sys=0.58, real=1.51 secs]

从这个长暂停的GC日志来看，是发生了晋升的，在Young GC后，有363M+的对象晋升到了老年代，这个晋升操作因该就是耗时原因（ps: 检查过safepoint原因，不存在异常）

由于日志参数中没有配置-XX:+PrintHeapAtGC参数，这里是手动计算的晋升大小：

年轻代年轻变化 - 全堆容量变化 = 晋升大小
(304371K - 3730075K) - (676858K - 3730075K) = 372487K(363M)

下一次年轻代GC日志

2020-04-23T17:23:39.749+0800: [GC2020-04-23T17:23:39.749+0800: [ParNew2020-04-23T17:23:39.774+0800: [SoftReference, 0 refs, 0.0000500 secs]2020-04-23T17:23:39.774+0800: [WeakReference, 3165 refs, 0.0002720 secs]2020-04-23T17:23:39.774+0800: [FinalReference, 3520 refs, 0.0021520 secs]2020-04-23T17:23:39.776+0800: [PhantomReference, 150 refs, 1 refs, 0.0051910 secs]2020-04-23T17:23:39.782+0800: [JNI Weak Reference, 0.0000100 secs]
Desired survivor size 214728704 bytes, new threshold 15 (max 15)
- age   1:   17076040 bytes,   17076040 total
- age   2:   40832336 bytes,   57908376 total
: 3659891K->90428K(3774912K), 0.0321300 secs] 4032378K->462914K(10066368K), 0.0322210 secs] [Times: user=0.30 sys=0.00, real=0.03 secs]

乍一看其实没什么问题，仔细想想发现了一些不正常，为什么程序刚启动第二次gc就发生了晋升呢

这里应该是动态年龄判定导致的，GC中晋升年龄阈值并不是固定的15，而是jvm每次gc后动态计算的

年轻代晋升机制

为了能更好地适应不同程序的内存状况，虚拟机并不是永远地要求对象的年龄必须达到了MaxTenuringThreshold才能晋升老年代，如果在Survivor空间中相同年龄所有对象大小的总和大于Survivor空间的一半，年龄大于或等于该年龄的对象就可以直接进入老年代，无须等到MaxTenuringThreshold中要求的年龄
《深入理解Java虚拟机》一书中提到，对象晋升年龄的阈值是动态判定的。

不过经查阅其他资料和验证后，发现此处和《深入理解Java虚拟机》解释的有些出入（或者是书上解释的不够清楚）

其实就是按年龄给对象分组，取total（累加值，小于等与当前年龄的对象总大小）最大的年龄分组，如果该分组的total大于survivor的一半，就将晋升年龄阈值更新为该分组的年龄

注意：不是是超过survivor一半就晋升，超过survivor一半只会重新设置晋升阈值（threshold），在下一次GC才会使用该新阈值

3544342K->374555K(3774912K), 0.1444710 secs] 年轻代

3544342K->374555K(10066368K), 0.1446290 secs] 全堆

从上面第一次的GC日志也可以证明这个结论，在这次GC中全堆的内存变化和年轻代内存变化是相等的，所以并没有发生对象的晋升

就像上面的日志中，第一次GC只是将threshold设置为1，因为此时survivor一半为214728704 bytes，而年龄为1的对象总和有315529928 bytes，超过了Desired survivor size，所以在本次GC后将threshold设置为年龄为1的对象年龄1

这里更新了对象晋升年龄阈值为1

Desired survivor size 214728704 bytes, new threshold 1 (max 15)
- age   1:  315529928 bytes,  315529928 total
- age   2:   40956656 bytes,  356486584 total
- age   3:    8408040 bytes,  364894624 total

这里顺便解释下这个年龄分布的输出内容：

- age 1: 315529928 bytes, 315529928 total

age 1表示年龄为1的对象分组，315529928 bytes表示年龄为1的对象占用内存大小

315529928 total这个是一个累加值，表示小于等于当前分组年龄的对象总大小。先把对象按年龄分组，age 1的分组total为age 1总大小（前面的xxx bytes），age 2的分组total为age 1 + age 2总大小，age n的分组total为age 1 + age 2 + ... +age n的总大小，累加规则如下图所示

当total最大的分组的total值超过了survivor/2时，就会更新晋升阈值

在第二次年轻代GC“长暂停年轻代GC日志”中，由于新的晋升年龄阈值为1，所以那些经历了一次GC并存活并且现在仍然可达（reachable）的对象们就会发生晋升了

由于此次GC发生了363M的对象晋升，所以导致了长暂停

思考

JVM中这个“动态对象年龄判定”真的是合理的吗？个人认为机制是好的，可以更好的适应不同程序的内存状况，但不是任何场景都适合，比如在本文中这个刚启动不就GC的场景下就会有问题

因为在程序刚启动时，大多数对象年龄都是0或者1，很容易出现年龄为1的大量存活对象；在这个“动态对象年龄判定”机制下，就会导致新的晋升阈值被设置为1，导致这些不该晋升的对象发生了晋升

比如程序在初始化，正在加载各种资源时发生了Young GC，加载逻辑还在执行中，很多新建的对象年龄在这次GC时还是可达的（reachable）

经历了这次GC后，这些对象年龄更新为1，但是由于“动态对象年龄判定”机制的影响，晋升年龄阈值更新为了“最大的对象年龄分组”的年龄，也就是这批刚经历了一次GC的对象们

在这次GC之后不久，资源初始化完成了，涉及的相关对象有很可能不可达了，但是由于刚才晋升年龄阈值被更新为了1，在下一次正常的Young GC这批年龄为1的对象会直接发生晋升，提前或者说错误的发生了晋升

解决方案

经查阅文档、资料，发现“动态年龄判定”这个机制并不能禁用，所以如果想解决这个问题，只有靠“绕过”这个计算规则了

动态年龄的判定，是根据Survivor空间中相同年龄所有对象大小的总和大于Survivor空间的一半来判定的，那么根据这个机制解决也很简单

由于我们足够了解自己的系统，清楚的知道加载资源所需的大概内存，完全可以设定一个大于这些暂时可达的对象总和的数值来作为survivor的容量

比如上面的日志中，第一次GC后年龄为1的对象有315529928 Bytes(300M)，Desired survivor size为（survivor size /2）214728704 bytes(204M)，那么survivor就可以设置为600M以上。

不过为了稳妥，还是将survivor调到800M，这样desired survivor size就是400M左右，在第一次Young GC后，就不会因年龄为1的对象总和超过了desired survivor size而导致晋升年龄阈值的更新了，从而也就不会有提前/错误晋升而导致的GC长暂停问题

survivor不可以直接指定大小，不过可以通过-XX:SurvivorRatio这种调节比例的方式来调节survivor大小

-XX:SurvivorRatio=8

表示两个Survivor和Edgen区的比，8表示两个Survivor:Eden=2:8，即一个Survivor占新生代的1/10。

计算方式为：

Survivor Size(1) = Young Generation Size / (2+SurvivorRatio)
Eden Size = Young Generation Size / (2+SurvivorRatio) * SurvivorRatio

扩展阅读

为什么晋升300M比年轻代回收3G还要慢这么多倍
根据复制算法的特性，复制算法的时间消耗主要取决于存活对象的大小，而不是总空间的大小

比如上面4G的年轻代（实际只有Eden+S0可用），GC时只需要从GC ROOTS开始遍历对象图，将可达的对象复制至S1即可，并不需要遍历整个年轻代

在上面那次长暂停GC日志中，发生了363M的晋升，300M左右的回收，对比第一次GC基本可以得出，花费的1.5S基本上都是在晋升操作

那么为什么晋升操作这么耗时呢？

这里没有深入研究Oracle JVM实现的年轻代晋升细节，不过晋升涉及跨代复制（其实都年轻代和老年代都是heap，在复制这件事上本质上没什么区别，都是memcpy而已，只是需要额外处理的逻辑更多了）
，所需处理的逻辑会更复杂一些，比如指针的更新等操作，更耗时也是可以理解的，

本地代码模拟

这里也附上一段可以在本地模拟问题的代码，Oracle JDK7下可直接运行测试

//jdk7.。

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

public class PromotionTest {
    public static void main(String[] args) throws IOException {
        //模拟初始化资源场景
        List dataList = new ArrayList<>();
        for (int i = 0; i <5; i++) {
            dataList.add(new InnerObject());
        }
        //模拟流量进入场景
        for (int i = 0; i <73; i++) {
            if(i == 72){
                System.out.println("Execute young gc...Adjust promotion threshold to 1");
            }
            new InnerObject();
        }
        System.out.println("Execute full gc...dataList has been promoted to cms old space");
        //这里注意dataList中的对象在这次Full GC后会进入老年代
        System.gc();
    }
    public static byte[] createData(){
        int dataSize = 1024*1024*4;//4m
        byte[] data = new byte[dataSize];
        for (int j = 0; j             data[j] = 1;
        }
        return data;
    }
    static class InnerObject{
        private Object data;

        public InnerObject() {
            this.data = createData();
        }
    }
}

jvm options

-server -Xmn400M -XX:SurvivorRatio=9 -Xms1000M -Xmx1000M -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintTenuringDistribution -XX:+PrintHeapAtGC -XX:+PrintReferenceGC -XX:+PrintGCApplicationStoppedTime -XX:+UseConcMarkSweepGC

看完上述内容，你们掌握如何进行一次年轻代GC长暂停问题的解决与思考的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注编程笔记行业资讯频道，感谢各位的阅读！

推荐阅读

java
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
java
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
java
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
main
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
java
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
java
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
java
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
text
实验九：使用SharedPreferences存储简单数据

本实验旨在帮助学生理解和掌握使用SharedPreferences存储和读取简单数据的方法，包括程序参数和用户选项。 ... [详细]

蜡笔小新 2024-11-12 14:21:47
java
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
go
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
ip
基于Linux开源VOIP系统LinPhone[四]

****************************************************************************************** ... [详细]

蜡笔小新 2024-11-12 11:00:11
go
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
java
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02
text
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
stream
Spring框架中枚举参数的正确使用方法与技巧

本文详细阐述了在Spring Boot框架中正确使用枚举参数的方法与技巧，旨在帮助开发者更高效地掌握和应用枚举类型的数据传递，适合对Spring Boot感兴趣的读者深入学习。 ... [详细]

蜡笔小新 2024-11-09 20:34:17

黛萊美文婷

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章