当前位置: 开发笔记 > 后端 > 正文

记一次grpcserver内存/吞吐量优化

作者：Happy的紫璐 | 来源：互联网 | 2023-07-22 01:39

背景最近，上线的采集器忽然时有OOM。采集器本质上是一个grpc服务，网络设备通过grpc协议将数据上报后，采集器进行格式等整理后，发往下一个系统（比如分析，存储）。打开运行环境，

背景

最近，上线的采集器忽然时有OOM。采集器本质上是一个grpc服务，网络设备通过grpc协议将数据上报后，采集器进行格式等整理后，发往下一个系统（比如分析，存储）。

打开运行环境，发现特性如下：

每个采集器实例，会有数千个设备相连。并且会建立一个双向 grpc stream，用以上报数据。

cpu的负载并不高，但内存居高不下。

初步猜想，内存和stream的数量相关，下面来验证一下。

优化内存

这次，很有先见之明的在上线就部署了pprof。这成为了线上debug的关键所在。

import _ "net/http/pprof" go func() { logrus.Errorln(http.ListenAndServe(":6060", nil)) }()

先看协程

一般内存问题会和协程泄露有关，所以先抓一下协程：

go tool pprof http://localhost:6060/debug/pprof/goroutine

得到了抓包的文件 /root/pprof/pprof.grpc_proxy.goroutine.001.pb.gz，为了方便看，scp到本机。

在本地执行：

go tool pprof -http=0.0.0.0:8080 ./pprof.grpc_proxy.goroutine.001.pb.gz

如果报错没有graphviz，安装之：

yum install graphviz

此时进入浏览器输入http://127.0.0.1:8080/ui/，会有一个很好看的页面。

在这里，会发现有13W个协程。有点多，但考虑到连接了10000多个设备。

这些协程，有keepalive, 有收发包等协程。都挺正常，其实问题不大。

几乎所有的协程都gopark了。在等待。这也解释了为什么cpu其实不高，因为设备连上了但是不上报数据。占着资源不XX。

再看内存

协程虽然多，但没看出什么有价值的东西。那么再看看内存的占用。这次换个命令：

go tool pprof -inuse_space http://127.0.0.1:6060/debug/pprof/heap

-inuse_space 代表观察使用中的内存

继续得到数据文件，然后scp到本机执行：

go tool pprof -http=0.0.0.0:8080 ./pprof.grpc_proxy.alloc_objects.alloc_space.inuse_objects.inuse_space.003.pb.gz

发现grpc.Serve.func3 ->...-> newBufWriter占用了大量内存。

问题很明显，是buf的配置不太合适。

这里多提一句，grpc服务端内存暴涨一般有这几个原因：

没有设置keepalive，使得连接泄露

服务端处理能力不足，流程阻塞，这个一般是下一跳IO引起。

buffer使用了默认配置。ReadBufferSize和WriteBufferSize默认为每个stream配置了32KB的大小。如果连接了很多设备，但其实cpu开销并不大，可以考虑减少这个值。

修改后代码添加grpc.ReadBufferSize(1024*8)/grpc.WriteBufferSize(1024*8)配置

var keepAliveArgs = keepalive.ServerParameters{ Time: 10 * time.Second, Timeout: 15 * time.Second, MaxConnectionIdle: 3 * time.Minute, } s := grpc.NewServer( ....... grpc.KeepaliveParams(keepAliveArgs), grpc.MaxSendMsgSize(1024*1024*8), // 最大消息8M grpc.MaxRecvMsgSize(1024*1024*8), grpc.ReadBufferSize(1024*8), // 就是这两个参数 grpc.WriteBufferSize(1024*8), ) if err := s.Serve(lis); err != nil { logger.Errorf("failed to serve: %v", err) return }

重新发布程序，发现内存占用变成了原来的一半。内存占用大的问题基本解决。

注意：减少buffer代表存取数据的频次会增加。理论上会带来更大的cpu开销。这也符合优化之道在于，CPU占用大就（增加buffer）用内存换，内存占用大就（减少buffer）用cpu换。水多了加面，面多了加水。如果cpu和内存都占用大，那就到了买新机器的时候了。

优化吞吐

在优化内存的时候，顺便看了一眼之前不怎么关注的缓冲队列监控。惊掉下巴。居然有1/4的数据使用到了缓冲队列来发送。这势必大量的使用了低速的磁盘。

这里简单提一下架构。

服务在收到数据之后并处理后，有多个下一跳（ai分析，存储等微服务）等着发送数据。

服务使用roundrobin的方式进行下一跳的选取

当下一跳繁忙的时候，则将数据写入到buffer中，buffer是一个磁盘队列。并且有另一个线程负责消费buffer中的数据。

简单用代码来表示就是：

func SendData(data *Data){ i+=1 targetStream:= streams[i%len(streams)] select{ case targetStream.c<- data: //写入成功 case <-time.After(time.Millisecond*50): bufferStream.c<-data // 超时，写入失败，写到磁盘缓存队列中，等待容错程序处理 } }

这种比较通用的玩法有几个硬伤

当某个下一跳stream的延时比较高的时候，就会引发大量的阻塞。从而使得大量的数据用到缓存。

time.After里的超时时间设成什么，很让人头痛。如果设得太大，虽然减少了缓冲的使用率，但增加了数据的延时。

思考了一下，能不能利用go的机制，从之前的轮循发送，换成哪个stream快就往谁发。

于是，我把代码写成了这样：

// 引入baseCh，所有的数据先发到这 baseCh:= make(chan *Data) // 为每个下一跳的stream建立一个协程，用来发送数据 for _,stream := range streams{ stream:=stream go func(){ for data:=range baseCh{ select{ // 在stream实现中使用一个独立的协程管理本stream的发送 case stream.c <- data: case <-stream.ctx.Done(): // 这个数据为了它不丢失，让它重新进入buffer buffer.Send(data) return } } }() } func Send(data *Data){ select{ case bashCh<-data: case <-time.After(time.Millisecond*50): buffer.Send(data) } }

这相当于引入一个baseCh，把Send函数改造成了一进多出的模式。从而不会让一个stream的阻塞频繁的卡住所有数据的发送。让所有的数据发送被归集到baseCh，而不是每次发送都等待超时。

在做这一个改动时，有一点顾虑：

chan本质上是一个有锁队列，频繁的加锁会不会反而影响吞吐？

这里需要指出：

无论是bashCh还是stream.C，都使用的无缓冲channel。理论上，无缓冲channel的性能会优于有缓冲的channel，因为不需要管理内置的队列。这在一些测评中有所体现。

写入channel一定要有超时或者退出机制，也就是：

select{ case bashCh<-data: case <-time.After(time.Millisecond*50): // 每次写channel都必须防御式的使用超时或退出进制，避免死锁 buffer.Send(data) }

实践是检验真理的唯一标准，立马上线灰度，发现多虑了。10000个写入端频繁调用Send函数时，系统资源并没有太大的波动。反而磁盘缓冲的使用大大减少了。

分批灰度变更，使得磁盘缓冲现在的使用几乎归零。

当看到监控图后，我激动的哇的一声哭出来，心里比吃了蜜还甜，感到自己的技术又精甚了不少。胸口的红领巾更红了。

grpc
server

推荐阅读

server
实体关系图（ER图）的最佳绘制工具推荐

探讨了SQL Server 2000自带工具绘制的一对多关系表的效果及其导出功能，并推荐了几款专业的ER图绘制软件。 ... [详细]

蜡笔小新 2024-11-21 12:30:44
http
Go语言中接口型函数的应用与解析

本文深入探讨了Go语言中的接口型函数，通过实例分析其灵活性和强大功能，帮助开发者更好地理解和运用这一特性。 ... [详细]

蜡笔小新 2024-11-21 12:21:19
http
通过命令行终止所有 Node.js 实例的方法

本文介绍了如何通过命令行有效地终止所有 Node.js 进程实例，以解决因端口冲突或其他服务冲突导致的问题。 ... [详细]

蜡笔小新 2024-11-21 12:14:06
http
解决PHP项目在服务器无法抓取远程网页内容的问题

本文探讨了在使用PHP进行后端开发时，遇到的一个常见问题：即在本地环境中能够正常通过CURL获取远程网页内容，但在服务器上却无法实现。我们将分析可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-11-21 10:31:32
struct
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
http
CentOS下ProFTPD的安装与配置指南

本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法，包括基本配置、安全设置及高级功能的启用。 ... [详细]

蜡笔小新 2024-11-21 09:45:56
ci
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
timeout
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
timeout
WM平台上Sybase Anywhere 11的高级应用

本文作为《WM平台上使用Sybase Anywhere 11》系列的第二篇，将继续探讨在Windows Mobile (WM) 系统中如何高效地操作Sybase Anywhere 11数据库。继上一篇关于安装与基本测试的文章之后，本篇将深入讲解数据库的具体操作方法。 ... [详细]

蜡笔小新 2024-11-20 21:16:41
timeout
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33
timeout
MySQL启动时遇到错误：ERROR! MySQL未运行但存在锁定文件(/var/lock/subsys/mysql)的解决方案

本文详细介绍了在尝试启动MySQL服务时，如果遇到错误提示‘MySQL未运行，但锁定文件(/var/lock/subsys/mysql)存在’应如何处理，包括具体的操作步骤和可能的原因分析。 ... [详细]

蜡笔小新 2024-11-20 20:19:58
api
解决SQL Server中几何类型列的INTERSECT操作问题

本文探讨了在SQL Server中处理几何类型列时遇到的INTERSECT操作限制，并提供了解决方案，包括通过转换数据类型和使用额外表结构的方法。 ... [详细]

蜡笔小新 2024-11-20 20:09:58
http
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
http
解决Spring Cloud Eureka自定义端口时连接错误的问题

在尝试通过自定义端口部署Spring Cloud Eureka时遇到了连接失败的问题。本文详细描述了问题的现象，并提供了有效的解决方案，以帮助遇到类似情况的开发者。 ... [详细]

蜡笔小新 2024-11-20 13:05:47
crash
Logging all MySQL queries into the Slow Log

MySQLoptionallylogsslowqueriesintotheSlowQueryLog–orjustSlowLog,asfriendscallit.However,Thereareseveralreasonstologallqueries.Thislistisnotexhaustive:Belowyoucanfindthevariablestochange,astheyshouldbewritteninth ... [详细]

蜡笔小新 2024-11-20 12:50:01

Happy的紫璐

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章