当前位置: 开发笔记 > 编程语言 > 正文

记一次内存溢出的分析经历

作者：balamark_466 | 来源：互联网 | 2023-08-24 21:07

作者：Jantihttps:www.cnblogs.comsuperfjp8474288.html说在前面的话朋友，你经历过部署好的服务突然内存溢出吗&

640?wx_fmt&＃61;gif

作者&＃xff1a;Janti

https://www.cnblogs.com/superfj/p/8474288.html

说在前面的话

朋友&＃xff0c;你经历过部署好的服务突然内存溢出吗&＃xff1f;

你经历过没有看过Java虚拟机&＃xff0c;来解决内存溢出的痛苦吗&＃xff1f;

你经历过一个BUG&＃xff0c;百思不得其解&＃xff0c;头发一根一根脱落的烦恼吗&＃xff1f;

我知道&＃xff0c;你有过&＃xff01;

但是我还是要来说说我的故事..................

背景&＃xff1a;

有一个项目做一个系统&＃xff0c;分客户端和服务端&＃xff0c;客户端用c&＃43;&＃43;写的&＃xff0c;用来收集信息然后传给服务端&＃xff08;客户端的数量还是比较多的&＃xff0c;正常的有几千个&＃xff09;&＃xff0c;

服务端用Java写的&＃xff08;带管理页面&＃xff09;&＃xff0c;属于RPC模式&＃xff0c;中间的通信框架使用的是thrift。

thrift很多优点就不多说了&＃xff0c;它是facebook的开源的rpc框架&＃xff0c;主要是它能够跨语言&＃xff0c;序列化速度快&＃xff0c;但是他有个不讨喜的地方就是它必须用自己IDL来定义接口

thrift版本&＃xff1a;0.9.2.

问题定位与分析

步骤一.初步分析

客户端无法连接服务端&＃xff0c;查看服务器的端口开启状况&＃xff0c;服务端口并没有开启。于是启动服务端&＃xff0c;启动几秒后&＃xff0c;服务端崩溃&＃xff0c;重复启动&＃xff0c;服务端依旧在启动几秒后崩溃。

步骤二.查看服务端日志分析

分析得知是因为java.lang.OutOfMemoryError: Java heap space&＃xff08;堆内存溢出&＃xff09;导致的服务崩溃。

客户端搜集的主机信息&＃xff0c;主机策略都是放在缓存中&＃xff0c;可能是因为缓存较大造成的&＃xff0c;但是通过日志可以看出是因为Thrift服务抛出的堆内存溢出异常与缓存大小无关。

步骤三.再次分析服务端日志

可以发现每次抛出异常的时候都会伴随着几十个客户端在向服务端发送日志&＃xff0c;往往在发送几十条日志之后&＃xff0c;服务崩溃。可以假设是不是堆内存设置的太小了&＃xff1f;

查看启动参数配置&＃xff0c;最大堆内存为256MB。修改启动配置&＃xff0c;启动的时候分配更多的堆内存&＃xff0c;改成java -server -Xms512m -Xmx768m。

结果是&＃xff0c;能坚持多一点的时间&＃xff0c;依旧会内存溢出服务崩溃。得出结论&＃xff0c;一味的扩大内存是没有用的。

为了证明结论是正确的&＃xff0c;做了这样的实验&＃xff1a;

内存设置为256MB&＃xff0c;在公司服务器上部署了服务端&＃xff0c;使用Java VisualVM远程监控服务器堆内存。
模拟客户现场&＃xff0c;注册3000个客户端&＃xff0c;使用300个线程同时发送日志。
结果和想象的一样&＃xff0c;没有出现内存溢出的情况&＃xff0c;如下图&＃xff1a;
上图是Java VisualVM远程监控&＃xff0c;在压力测试的情况下&＃xff0c;没有出现内存溢出的情况&＃xff0c;256MB的内存肯定够用的。

步骤四.回到thrift源码中&＃xff0c;查找关键问题

服务端采用的是Thrift框架中TThreadedSelectorServer这个类&＃xff0c;这是一个NIO的服务。下图是thrift处理请求的模型&＃xff1a;

640?wx_fmt&＃61;png

说明&＃xff1a;

一个AcceptThread执行accept客户端请求操作&＃xff0c;将accept到的Transport交给SelectorThread线程&＃xff0c;
AcceptThread中有个balance均衡器分配到SelectorThread&＃xff1b;SelectorThread执行read&＃xff0c;write操作&＃xff0c;
read到一个FrameBuffer&＃xff08;封装了方法名&＃xff0c;参数&＃xff0c;参数类型等数据&＃xff0c;和读取写入&＃xff0c;调用方法的操作&＃xff09;交给WorkerProcess线程池执行方法调用。
内存溢出就是在read一个FrameBuffer产生的。

步骤五.细致一点描述thrift处理过程

1.服务端服务启动后&＃xff0c;会listen()一直监听客户端的请求&＃xff0c;当收到请求accept()后&＃xff0c;交给线程池去处理这个请求

2.处理的方式是&＃xff1a;首先获取客户端的编码协议getProtocol&＃xff08;&＃xff09;&＃xff0c;然后根据协议选取指定的工具进行反序列化&＃xff0c;接着交给业务类处理process&＃xff08;&＃xff09;

3.process的顺序是&＃xff0c;先申请临时缓存读取这个请求数据&＃xff0c;处理请求数据&＃xff0c;执行业务代码&＃xff0c;写响应数据,最后清除临时缓存

总结&＃xff1a;thrift服务端处理请求的时候&＃xff0c;会先反序列化数据&＃xff0c;接着申请临时缓存读取请求数据&＃xff0c;然后执行业务并返回响应数据&＃xff0c;最后请求临时缓存。

所以压力测试的时候&＃xff0c;thrift性能很高&＃xff0c;而且内存占用不高&＃xff0c;是因为它有自负载调节&＃xff0c;使用NIO模式缓存&＃xff0c;并使用线程池处理业务&＃xff0c;每次处理完请求之后及时清除缓存。

步骤六.研读FrameBuffer的read方法代码

可以排除掉没有及时清除缓存的可能&＃xff0c;方向明确&＃xff0c;极大的可能是在申请NIO缓存的时候出现了问题&＃xff0c;回到thrift框架&＃xff0c;查看FrameBuffer的read方法代码&＃xff1a;

public boolean read() {　　　　　　　　 // try to read the frame size completely
            if (this.state_ &＃61;&＃61; AbstractNonblockingServer.FrameBufferState.READING_FRAME_SIZE) {
                if (!this.internalRead()) {
                    return false;
                }
　　　　　　　　 // if the frame size has been read completely, then prepare to read the actual time
                if (this.buffer_.remaining() !&＃61; 0) {
                    return true;
                }

                int frameSize &＃61; this.buffer_.getInt(0);
                if (frameSize <&＃61; 0) {
                    this.LOGGER.error("Read an invalid frame size of " &＃43; frameSize &＃43; ". Are you using TFramedTransport on the client side?");
                    return false;
                }
　　　　　　　　　　// if this frame will always be too large for this server, log the error and close the connection.

if ((long)frameSize > AbstractNonblockingServer.this.MAX_READ_BUFFER_BYTES) { this.LOGGER.error("Read a frame size of " &＃43; frameSize &＃43; ", which is bigger than the maximum allowable buffer size for ALL connections."); return false; } if (AbstractNonblockingServer.this.readBufferBytesAllocated.get() &＃43; (long)frameSize > AbstractNonblockingServer.this.MAX_READ_BUFFER_BYTES) { return true; } AbstractNonblockingServer.this.readBufferBytesAllocated.addAndGet((long)(frameSize &＃43; 4)); this.buffer_ &＃61; ByteBuffer.allocate(frameSize &＃43; 4); this.buffer_.putInt(frameSize); this.state_ &＃61; AbstractNonblockingServer.FrameBufferState.READING_FRAME; } if (this.state_ &＃61;&＃61; AbstractNonblockingServer.FrameBufferState.READING_FRAME) { if (!this.internalRead()) { return false; } else { if (this.buffer_.remaining() &＃61;&＃61; 0) { this.selectionKey_.interestOps(0); this.state_ &＃61; AbstractNonblockingServer.FrameBufferState.READ_FRAME_COMPLETE; } return true; } } else { this.LOGGER.error("Read was called but state is invalid (" &＃43; this.state_ &＃43; ")"); return false; } }

说明&＃xff1a;

MAX_READ_BUFFER_BYTES这个值即为对读取的包的长度限制&＃xff0c;如果超过长度限制&＃xff0c;就不会再读了/
这个MAX_READ_BUFFER_BYTES是多少呢&＃xff0c;thrift代码中给出了答案&＃xff1a;

public abstract static class AbstractNonblockingServerArgs<T extends AbstractNonblockingServer.AbstractNonblockingServerArgs<T>> extends AbstractServerArgs<T> { 　　　　　 public long maxReadBufferBytes &＃61; 9223372036854775807L; public AbstractNonblockingServerArgs(TNonblockingServerTransport transport) { super(transport); this.transportFactory(new Factory()); } }

从上面源码可以看出&＃xff0c;默认值居然给到了long的最大值9223372036854775807L。

所以thrift的开发者是觉得使用thrift程序员不够觉得内存不够用吗&＃xff0c;这个换算下来就是1045576TB&＃xff0c;这个太夸张了&＃xff0c;这等于没有限制啊&＃xff0c;所以肯定不能用默认值的。

步骤七.通信数据抓包分析

需要可靠的证据证明一个客户端通信的数据包的大小。

640?wx_fmt&＃61;png

这个是我抓到包最大的长度&＃xff0c;最大一个包长度只有215B&＃xff0c;所以需要限制一下读取大小

步骤八&＃xff1a;踏破铁鞋无觅处

在论坛中&＃xff0c;看到有人用http请求thrift服务端出现了内存溢出的情况&＃xff0c;所以我抱着试试看的心态&＃xff0c;在浏览器中发起了http请求&＃xff0c;

果不其然&＃xff0c;出现了内存溢出的错误&＃xff0c;和客户现场出现的问题一摸一样。这个读取内存的时候数量过大&＃xff0c;超过了256MB。

很明显的一个问题&＃xff0c;正常的一个HTTP请求不会有256MB的&＃xff0c;考虑到thrift在处理请求的时候有反序列化这个操作。

可以做出假设是不是反序列化的问题&＃xff0c;不是thrift IDL定义的不能正常的反序列化&＃xff1f;

验证这个假设&＃xff0c;我用Java socket写了一个tcp客户端&＃xff0c;向thrift服务端发送请求&＃xff0c;果不其然&＃xff01;java.lang.OutOfMemoryError: Java heap space。

这个假设是正确的,客户端请求数据不是用thrift IDL定义的话&＃xff0c;无法正常序列化&＃xff0c;序列化出来的数据会异常的大&＃xff01;大到超过1个G的都有。

步骤九. 找到原因

某些客户端没有正常的序列化消息&＃xff0c;导致服务端在处理请求的时候&＃xff0c;序列化出来的数据特别大&＃xff0c;读取该数据的时候出现的内存溢出。

查看维护记录&＃xff0c;在别的客户那里也出现过内存溢出导致服务端崩溃的情况&＃xff0c;通过重新安装客户端&＃xff0c;就不再复现了。

所以可以确定&＃xff0c;客户端存在着无法正常序列化消息的情况。考虑到&＃xff0c;客户端量比较大&＃xff0c;一个一个排除&＃xff0c;再重新安装比较困难&＃xff0c;工作量很大&＃xff0c;所以可以从服务端的角度来解决问题&＃xff0c;减少维护工作量。

最后可以确定解决方案了&＃xff0c;真的是废了很大的劲&＃xff0c;不过也是颇有收获

问题解决方案

非常简单

1.在构造TThreadedSelectorServer的时候&＃xff0c;增加args.maxReadBufferBytes &＃61; 1*1024 * 1024L;也就是说修改maxReadBufferBytes的大小&＃xff0c;设置为1MB。

客户端与服务端通过thrift通信的数据包&＃xff0c;最大十几K&＃xff0c;所以设置最大1MB&＃xff0c;是足够的。代码部分修改完成&＃xff0c;版本不做改变。

修改完毕后&＃xff0c;这次进行了异常流测试&＃xff0c;发送了http请求&＃xff0c;使服务端无法正常序列化。

2.服务端处理结果如下&＃xff1a;

640?wx_fmt&＃61;png

thrift会抛出错误日志&＃xff0c;并直接没有读这个消息&＃xff0c;返回false,不处理这样的请求&＃xff0c;将其视为错误请求。

3.国外有人对thrift一些server做了压力测试&＃xff0c;如下图所示&＃xff1a;

640?wx_fmt&＃61;jpeg

使用thrift中的TThreadedSelectorServer吞吐量达到18000以上

由于高性能&＃xff0c;申请内存和清除内存的操作都是非常快的&＃xff0c;平均3ms就处理了一个请求。

所以是推荐使用TThreadedSelectorServer

4.修改启动脚本&＃xff0c;增大堆内存&＃xff0c;分配单独的直接内存。

修改为java -server -Xms512m -Xmx768m -XX:MaxPermSize&＃61;256m -XX:NewSize&＃61;256m -XX:MaxNewSize&＃61;512m -XX:MaxDirectMemorySize&＃61;128M。
设置持久代最大值 MaxPermSize:256m
设置年轻代大小 NewSize:256m
年轻代最大值 MaxNewSize:512M
最大堆外内存&＃xff08;直接内存&＃xff09;MaxDirectMemorySize&＃xff1a;128M

5.综合论坛中&＃xff0c;StackOverflow一些同僚的意见&＃xff0c;在使用TThreadedSelectorServer时&＃xff0c;将读取内存限制设置为1MB&＃xff0c;最为合适&＃xff0c;正常流和异常流的情况下不会有内存溢出的风险。

之前启动脚本给服务端分配的堆内存过小&＃xff0c;考虑到是NIO&＃xff0c;所以在启动服务端的时候&＃xff0c;有必要单独分配一个直接内存供NIO使用.修改启动参数。

增加堆内存大小直接内存&＃xff0c;防止因为服务端缓存太大&＃xff0c;导致thrift服务没有内存可申请&＃xff0c;无法处理请求。

总结

真的是一次非常酸爽的过程&＃xff0c;特此发个博客记录一下&＃xff0c;如果有说的不对的对方&＃xff0c;欢迎批评斧正&＃xff01;

长按订阅更多精彩▼

640?wx_fmt&＃61;jpeg

如有收获&＃xff0c;点个在看&＃xff0c;诚挚感谢 640?wx_fmt&＃61;png

推荐阅读

server
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
server
在Kubernetes上部署JupyterHub的步骤和实验依赖

本文介绍了在Kubernetes上部署JupyterHub的步骤和实验所需的依赖，包括安装Docker和K8s，使用kubeadm进行安装，以及更新下载的镜像等。 ... [详细]

蜡笔小新 2023-12-14 20:27:14
select
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
select
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
replace
Java String与StringBuffer的区别及其应用场景

本文主要介绍了Java中String和StringBuffer的区别，String是不可变的，而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象，内存使用上要优于String类。因此，在需要频繁对字符串进行修改的情况下，使用StringBuffer更加适合。同时，文章还介绍了String和StringBuffer的应用场景。 ... [详细]

蜡笔小新 2023-12-13 19:21:06
replace
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
char
Netty拆包粘包问题解决 —— 特殊结束符

本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中，客户端和服务器协商定义一个特殊的分隔符号，只要没有发送分隔符号，就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]

蜡笔小新 2023-12-14 18:02:45
select
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
command
如何找到并终止在8080端口上运行的进程？

本文介绍了如何找到并终止在8080端口上运行的进程的方法，通过使用终端命令lsof -i :8080可以获取在该端口上运行的所有进程的输出，并使用kill命令终止指定进程的运行。 ... [详细]

蜡笔小新 2023-12-14 13:45:13
command
PHP URL处理的三个函数详解

本文详细介绍了PHP中与URL处理相关的三个函数：http_build_query、parse_str和查询字符串的解析。通过示例和语法说明，讲解了这些函数的使用方法和作用，帮助读者更好地理解和应用。 ... [详细]

蜡笔小新 2023-12-14 12:32:13
command
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
byte
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
byte
PHP实现断点续传乱序合并文件的方法和源码

本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因，文件需要分割成多个部分发送，因此无法按顺序接收。文章中提供了merge2.php的源码，通过使用shuffle函数打乱文件读取顺序，实现了乱序合并文件的功能。同时，还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]

蜡笔小新 2023-12-14 04:33:19
select
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
select
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32

balamark_466

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章