热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

记一次.NET某RFID标签管理系统CPU暴涨分析

一:背景1.讲故事前段时间有位朋友说他的程序CPU出现了暴涨现象,由于程序是买来的,所以问题就比较棘手了,那既然找到我,就想办法帮朋友找出来吧,分析下来,问题比较经典,有必要和大家

一:背景


1. 讲故事

前段时间有位朋友说他的程序 CPU 出现了暴涨现象,由于程序是买来的,所以问题就比较棘手了,那既然找到我,就想办法帮朋友找出来吧,分析下来,问题比较经典,有必要和大家做一下分享。


二:WinDbg 分析


1. CPU 真的爆高吗

一直关注这个系列的朋友应该知道,用 !tp 验证即可。


0:161> !tp
CPU utilization: 81%
Worker Thread: Total: 486 Running: 486 Idle: 0 MaxLimit: 8191 MinLimit: 24
Work Request in Queue: 0
--------------------------------------
Number of Timers: 1
--------------------------------------
Completion Port Thread:Total: 6 Free: 1 MaxFree: 48 CurrentLimit: 6 MaxLimit: 1000 MinLimit: 24

果然 CPU =81% ,并且当前的 481 个工作线程全部打满,以经验看可能是遇到锁什么的,不过还是先从是否触发 GC 看起。


2. 是触发 GC 了吗?

要查看是否触发 GC,可以用 !t -special 看看是否有 SuspendEE 字样。


0:161> !t -special
ThreadCount: 604
UnstartedThread: 0
BackgroundThread: 587
PendingThread: 0
DeadThread: 11
Hosted Runtime: no

OSID Special thread type
29 2e74 DbgHelper
30 1014 GC SuspendEE
31 4a84 GC
32 4a48 GC
...
52 37c0 GC
53 47a0 GC
54 4620 Finalizer
55 1aa4 ProfilingAPIAttach
...

从卦中看,30号线程果然挂了 SuspendEE,并且还是一个 GC 线程,接下来切过去看看此时 GC 正在做什么?


0:161> ~~[1014]s
eax=00000000 ebx=0724fc10 ecx=00000000 edx=00000000 esi=00000000 edi=0724fc10
eip=77ddf02c esp=0724fbd0 ebp=0724fc34 iopl=0 nv up ei pl nz ac po nc
cs=0023 ss=002b ds=002b es=002b fs=0053 gs=002b efl=00000212
ntdll!NtDelayExecution+0xc:
77ddf02c c20800 ret 8
0:030> k
# ChildEBP RetAddr
00 0724fc34 758345da ntdll!NtDelayExecution+0xc
01 0724fc34 738a74eb KERNELBASE!SleepEx+0x8a
02 0724fc78 73a0f710 clr!EESleepEx+0x59
03 0724fc78 73a0f809 clr!SVR::gc_heap::mark_steal+0x27c
04 0724fcd0 73a17930 clr!SVR::gc_heap::mark_phase+0x3d0
05 0724fd0c 73a17dc9 clr!SVR::gc_heap::gc1+0xf2
06 0724fd5c 73a174a1 clr!SVR::gc_heap::garbage_collect+0x746
07 0724fd78 73a10d7e clr!SVR::gc_heap::gc_thread_function+0x14a
08 0724fd98 73a10d0f clr!SVR::gc_heap::gc_thread_stub+0x72
09 0724fdac 750e62c4 clr!GCThreadStub+0x1f
0a 0724fdc0 77dd1f69 kernel32!BaseThreadInitThunk+0x24
0b 0724fe08 77dd1f34 ntdll!__RtlUserThreadStart+0x2f
0c 0724fe18 00000000 ntdll!_RtlUserThreadStart+0x1b

从卦中的 gc_thread_function 函数看,这是一个阻塞版的 GC 线程,当前正处于 mark_phase 标记阶段,并且还在抢其他 GC 线程的活,有点意思。。。

既然是触发了 GC ,那就看下触发了哪一代以及什么原因触发的。


0:030> x clr!*gc_heap::settings*
73f15da8 clr!WKS::gc_heap::settings =
73f13520 clr!SVR::gc_heap::settings =
0:030> dp 73f13520
73f13520 00002df0 00000002 00000001 00000001
73f13530 00000000 00000000 00000000 00000000
73f13540 00000000 00000000 00000000 00000000
73f13550 00000000 00000000 00000005 00000001
73f13560 00000000 00000000 00000000 00000001
73f13570 00000000 0000005a 00000000 00000001
73f13580 05f71b40 86b2ee2e 00040000 00000001
73f13590 00000002 00002000 00000002 00000000

从卦中的 0000000200000005 可知,当前触发的是 2代 GC,原因是 5,那 5 是什么意思? 可以看下 clr 中的 gc_reason 即可。


enum gc_reason
{
reason_alloc_soh = 0,
reason_induced = 1,
reason_lowmemory = 2,
reason_empty = 3,
reason_alloc_loh = 4,
reason_oos_soh = 5,
reason_oos_loh = 6,
reason_induced_noforce = 7, // it's an induced GC and doesn't have to be blocking.
reason_gcstress = 8, // this turns into reason_induced & gc_mechanisms.stress_induced = true
reason_lowmemory_blocking = 9,
reason_induced_compacting = 10,
reason_lowmemory_host = 11,
reason_pm_full_gc = 12, // provisional mode requested to trigger full GC
reason_lowmemory_host_blocking = 13,
reason_bgc_tuning_soh = 14,
reason_bgc_tuning_loh = 15,
reason_bgc_stepping = 16,
reason_max
};

也就是上面的 reason_oos_soh,表示当前的小对象堆中的段空间满了,那是不是呢? 可以用 !eeheap -gc 看下托管堆。


0:030> !eeheap -gc
Number of GC Heaps: 24
------------------------------
Heap 0 (06d00138)
generation 0 starts at 0xe8a380ec
generation 1 starts at 0xe8a380e0
generation 2 starts at 0x07311000
ephemeral segment allocation context: (0xe8a380f8, 0xe8a38104)
segment begin allocated size
07310000 07311000 0830fd5c 0xffed5c(16772444)
a86a0000 a86a1000 a969fd10 0xffed10(16772368)
e8a10000 e8a11000 e8a380f8 0x270f8(159992)
Large object heap starts at 0x1f311000
segment begin allocated size
1f310000 1f311000 1f4cafb0 0x1b9fb0(1810352)
Heap Size: Size: 0x21deb14 (35515156) bytes.
------------------------------
...
Heap 22 (06d76910)
generation 0 starts at 0xbfd5d228
generation 1 starts at 0xbfd5ce20
generation 2 starts at 0x1d311000
ephemeral segment allocation context: (0xbfd5d234, 0xbfd5d240)
segment begin allocated size
1d310000 1d311000 1e30fe64 0xffee64(16772708)
bed60000 bed61000 bfd5d234 0xffc234(16761396)
Large object heap starts at 0x2a311000
segment begin allocated size
2a310000 2a311000 2a311010 0x10(16)
Heap Size: Size: 0x1ffb0a8 (33534120) bytes.
...
------------------------------
GC Heap Size: Size: 0x2f6f6d18 (795831576) bytes.

可以看到,heap 上很多都是 segment=16M 打满状态,停。。。为什么 segment 只有 16M ,出现了一个重大线索。


3. 重大线索解读

一个 Server 版的 GC,拥有高达 24 个逻辑核,居然只有 16M 的 segment,这么小的 segment,很容易被一些快进快出的大内存操作给打满,也就更容易造成 GC 触发,而且还是 Full GC,版本信息如下:


0:030> !eeversion
4.7.3416.0 retail
Server mode with 24 gc heaps
SOS Version: 4.7.3416.0 retail build

接下来到线程栈上找找有没有快进快出的大内存操作。


4. 寻找大内存操作

既然有快进快出的操作,在 GC 触发时肯定还会躺在 托管堆 上,我们就从这里入手。


0:030> !dumpheap -stat
Statistics:
MT Count TotalSize Class Name
...
06cd1750 638727 15899642 Free
30361270 171401 19196912 xxxx.Entities.ProductInventoryLog
30360f90 537090 32225400 xxxx.Entities.ProductInventoryEpcDetail
30f9a148 171404 67875600 System.Data.Entity.Core.Objects.StateManagerValue[]
3036074c 694875 97282500 xxxx.Entities.ProductBorrow
727efd60 8419815 394836372 System.String
Total 14577631 objects
Fragmented blocks larger than 0.5 MB:
Addr Size Followed by
9b0bf500 0.5MB 9b141878 System.Byte[]

从托管堆看,有不少的类对象,接下来抽一个 xxxx.Entities.ProductInventoryEpcDetail 看下引用,然后查根对象的 size。

0:161> !gcroot a8780ecc
Thread 40b8:
df90d330 715d143a System.Linq.Enumerable+d__38`4[[System.__Canon, mscorlib],[System.__Canon, mscorlib],[System.__Canon, mscorlib],[System.__Canon, mscorlib]].MoveNext()
esi:
-> 090eeba4 System.Linq.Enumerable+d__38`4[]
...
-> a8780e80 xxxx.Entities.ProductInventoryEpcDetail[]
-> a8780ecc xxxx.Entities.ProductInventoryEpcDetail
Found 1 unique roots (run '!GCRoot -all' to see all roots).

其实这个引用链特别长,用 !objsize 090eeba4 显示对象大小,一直都是卡住中,size 肯定不小, 接下来我们切入到 40b8 看下这个方法,可以发现一个非常复杂的 EF 写法,又是 outer,又是 inner,又要再关联,截图如下:



推荐阅读
  • 在CentOS上部署和配置FreeSWITCH
    在CentOS系统上部署和配置FreeSWITCH的过程涉及多个步骤。本文详细介绍了从源代码安装FreeSWITCH的方法,包括必要的依赖项安装、编译和配置过程。此外,还提供了常见的配置选项和故障排除技巧,帮助用户顺利完成部署并确保系统的稳定运行。 ... [详细]
  • 在IIS上运行的WebApi应用程序在开发环境中能够正常进行文件的读写操作。然而,在尝试通过FTP访问实时服务器上的文件列表时,遇到了无法显示的问题,尽管服务器配置与开发环境相同。这可能涉及权限设置、FTP服务配置或网络连接等方面的问题。 ... [详细]
  • IOS Run loop详解
    为什么80%的码农都做不了架构师?转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • Silverlight 实战指南:深入解析用户提交数据的验证与捕获机制
    本文深入探讨了Silverlight中用户提交数据的验证与捕获机制,详细分析了四种主要的验证方法:基本异常处理、DataAnnotation注解、IDataErrorInfo客户端同步验证以及自定义验证策略。通过实例解析,帮助开发者更好地理解和应用这些机制,提升应用程序的数据处理能力和用户体验。 ... [详细]
  • 在《ChartData类详解》一文中,我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色(Setting Colors)以及如何格式化数据值(Formatting Data Values),通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外,我们还将介绍一些高级配置选项,帮助开发者更好地定制和优化图表展示效果。 ... [详细]
  • 该问题可能由守护进程配置不当引起,例如未识别的JVM选项或内存分配不足。建议检查并调整JVM参数,确保为对象堆预留足够的内存空间(至少1572864KB)。此外,还可以优化应用程序的内存使用,减少不必要的内存消耗。 ... [详细]
  • 本文探讨了在使用 Outlook 时遇到的一个常见问题:无法加载 SAVCORP90 插件,导致软件功能受限。该问题通常表现为在启动 Outlook 时会收到错误提示,影响用户的正常使用体验。文章详细分析了可能的原因,并提供了多种解决方法,包括检查插件兼容性、重新安装插件以及更新 Outlook 版本等。通过这些步骤,用户可以有效解决这一问题,恢复 Outlook 的正常运行。 ... [详细]
  • 在本地环境中部署了两个不同版本的 Flink 集群,分别为 1.9.1 和 1.9.2。近期在尝试启动 1.9.1 版本的 Flink 任务时,遇到了 TaskExecutor 启动失败的问题。尽管 TaskManager 日志显示正常,但任务仍无法成功启动。经过详细分析,发现该问题是由 Kafka 版本不兼容引起的。通过调整 Kafka 客户端配置并升级相关依赖,最终成功解决了这一故障。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 如何精通编程语言:全面指南与实用技巧
    如何精通编程语言:全面指南与实用技巧 ... [详细]
  • 尽管我们尽最大努力,任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑,本文探讨了多种策略和最佳实践,旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响,并提高整体服务质量和客户满意度。 ... [详细]
  • 今天我开始学习Flutter,并在Android Studio 3.5.3中创建了一个新的Flutter项目。然而,在首次尝试运行时遇到了问题,Gradle任务 `assembleDebug` 执行失败,退出状态码为1。经过初步排查,发现可能是由于依赖项配置不当或Gradle版本不兼容导致的。为了解决这个问题,我计划检查项目的 `build.gradle` 文件,确保所有依赖项和插件版本都符合要求,并尝试更新Gradle版本。此外,还将验证环境变量配置是否正确,以确保开发环境的稳定性。 ... [详细]
  • 基址获取与驱动开发:内核中提取ntoskrnl模块的基地址方法解析
    基址获取与驱动开发:内核中提取ntoskrnl模块的基地址方法解析 ... [详细]
  • 在处理大图片时,PHP 常常会遇到内存溢出的问题。为了避免这种情况,建议避免使用 `setImageBitmap`、`setImageResource` 或 `BitmapFactory.decodeResource` 等方法直接加载大图。这些函数在处理大图片时会消耗大量内存,导致应用崩溃。推荐采用分块处理、图像压缩和缓存机制等策略,以优化内存使用并提高处理效率。此外,可以考虑使用第三方库如 ImageMagick 或 GD 库来处理大图片,这些库提供了更高效的内存管理和图像处理功能。 ... [详细]
author-avatar
邹balitas_611
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有