最近在配合运维进行系统压测,进行系统评估的时候cpu.idle和cpu.load是两个主要参考指标。
在Linux系统中,通过top命令可以查看cpu.idle和cpu.load。
在说明这两个指标之前,必须对系统运转有一个整体的认识。
在Linux内核中,每个进程都会被分配一个固定的时间片(默认为10ms)。在这10ms中,该进程享有cpu的所有权。如果该进程用完了10ms,或者有其他优先级高的进程发出请求,系统会触发一个中断,内核重新接管cpu,内核分配cpu给其他进程。10ms的分片让用户,也就是我们觉得我们的系统运转非常流畅,尽管我们可能同时开了很多的应用。
cpu.idle
cpu.idle指的是CPU处于空闲状态时间比例,从时间的角度衡量CPU的空闲程度。
CPU利用率主要分为用户态,系统态和空闲态,分别表示CPU处于用户态执行的时间,系统内核执行的时间,和空闲系统进程执行的时间,三者之和就是CPU的总时间。
当没有用户进程、系统进程等需要执行的时候,CPU就执行系统缺省的空闲进程。cpu.idle就是指空闲进程占用时间的比例,即CPU执行空闲的时间 / CPU总的执行时间。cpu.idle是基于/proc/stat计算出来的。
cpu.idle过低排查方式
- top 或者 jps 或者 ps -ef | grep java,假定我们找到的是java 进程 PID=9527
- 使用命令:top -H -p 9527,找到java进程中的线程情况
- 找到占用cpu较高的排名靠前的几个线程 PID 假如找到的耗CPU较高的线程 PID=95271
- 查看该线程的堆栈信息,使用命令:jstack -l 95271 或者 jstack -F 95271
- 分析堆栈的信息,进一步进行排查代码逻辑
cpu.load
cpu.load被定义为在特定时间间隔内运行队列中(在CPU上运行或者等待运行多少进程)的平均进程数。如果一个进程满足以下条件则其就会位于运行队列中:
- 它没有在等待I/O操作的结果
- 它没有主动进入等待状态(也就是没有调用’wait’)
- 没有被停止(例如:等待终止)
Linux load averages 可以衡量任务对系统的需求,并且它可能大于系统当前正在处理的数量,大多数工具将其显示为三个平均值,分别为 1、5 和 15 分钟值。
在Linux中,进程分为三种状态,一种是阻塞的进程blocked process,一种是可运行的进程runnable process,另外就是正在运行的进程running process。
进程可运行状态时,它处在一个运行队列run queue中,与其他可运行进程争夺CPU时间。 系统的load是指正在运行和准备好运行的进程的总数。比如现在系统有2个正在运行的进程,3个可运行进程,那么系统的load就是5。cpu.load是基于/proc/loadavg进行统计的。
cpu.load评估
如果cpu.load过大则表示有部分线程在等待获得cpu资源,过小表示cpu资源比较空闲。
对于cpu.load多少开始出现性能问题,外界有不同的说法,有的认为cpu.load/cores最好不要超过1,有的认为cpu.load/cores最好不要超过3,有的认为cpu.load不超过2*cores-2即可。
针对技术商服务进行压测时&#xff0c;发现load低时&#xff0c;接口TP999响应时间<50ms&#xff0c;而cpu.load/cores>4时&#xff0c;TP999响应时间约为200ms左右&#xff0c;多出来的时间可以理解为线程等待cpu处理的时间&#xff0c;可见cpu.load/cores过高时是影响接口响应时间的。
因此可以结合预期的接口响应时间&#xff0c;来定义每个服务的cpu.load/cores不超过多少。比如要求接口响应时间尽可能快的&#xff0c;最好确保cpu.load/cores不超过1&#xff0c;而对时间敏感性要求不太高时&#xff0c;一般要求cpu.load/cores不超过3。