linux驱动调试修改系统时钟终端来定位僵死问题【转】

作者：菌挥发油 | 来源：互联网 | 2023-08-28 19:22

本文转载自：http:blog.chinaunix.netuid-20671208-id-4940381.html原文地址：linux驱动调试--修改系

本文转载自&＃xff1a;http://blog.chinaunix.net/uid-20671208-id-4940381.html

原文地址&＃xff1a;linux驱动调试--修改系统时钟终端来定位僵死问题作者&＃xff1a;枫露清愁

曾经遇到过一个bug是这样的&＃xff0c;通过串口终端和开发板交互时&＃xff0c;执行一个程序后&＃xff0c;整个系统就挂了&＃xff0c;也不接受输入了&＃xff0c;只能重启&＃xff0c;
后来发现是死在某段代码里了&＃xff0c;当时可是费了一番功夫&＃xff0c;今天来说一下怎么调试这种系统僵死的程序.

首先说一下linux的时钟中断。
linux的时钟中断也是一种硬件中断&＃xff0c;通过计数器产生输出脉冲&＃xff0c;送到CPU&＃xff0c;触发中断。这个中断比较特殊&＃xff0c;它是来记录系统时间的&＃xff0c;
每隔固定的一段时间就会触发一次。类似于现实中的钟表&＃xff0c;每隔1秒就滴答一次&＃xff0c;记录时间&＃xff0c;我们的时间概念都是以这个为基准的。
同样&＃xff0c;内核当中的时间都是以时钟中断为基准的&＃xff0c;一次中断就可以认为是一个时间单位。它是内核的心脏&＃xff0c;它不跳了&＃xff0c;内核肯定就挂了。
系统利用时钟中断来维持系统时间、促使环境切换和进程调度。

linux用HZ来表示1s产生的时钟中断次数&＃xff0c;用jiffies来表示自从系统启动后产生了多少次时钟中断

下面进入正题

首先写一个能够引起系统僵死的测试程序。

system_dead.c

点击(此处)折叠或打开

#include
#include
#include
#include
#include
#include
#include
#include
#include
static struct class *sysdead_class;
static struct device *sysdead_class_dev;
int major;
static int sysdead_test_open(struct inode *inode, struct file *file)
{
int i &＃61; 0;
int j &＃61; 0;
int k &＃61; 0;
while(1){
i &＃61; i &＃43; 1;
j &＃61; i &＃43; 1;
k &＃61; j &＃43; 1;
if(i > 100)
i &＃61; 0;
if(j > 100)
j &＃61; 0;
if(k > 100)
k &＃61; 0;
}
//printk("sysdead_test_open success!\n");
return 0;
}
static struct file_operations sysdead_test_fops &＃61; {
.owner &＃61; THIS_MODULE,
.open &＃61; sysdead_test_open,
};
static int sysdead_drv_init(void)
{
major &＃61; register_chrdev(0, "sysdead_test", &sysdead_test_fops);
sysdead_class &＃61; class_create(THIS_MODULE, "sysdead_test");
sysdead_class_dev &＃61; device_create(sysdead_class, NULL, MKDEV(major, 0), NULL, "sysdead");
printk("sysdead_drv_init success!\n");
return 0;
}
static void sysdead_drv_exit(void)
{
device_destroy(sysdead_class, MKDEV(major,0));
class_destroy(sysdead_class);
unregister_chrdev(major, "sysdead_test");
}
module_init(sysdead_drv_init);
module_exit(sysdead_drv_exit);
MODULE_LICENSE("GPL")

test.c

点击(此处)折叠或打开

#include
#include
#include
#include
int main(int argc, char **argv)
{
int fd;
int val &＃61; 1;
fd &＃61; open("/dev/sysdead", O_RDWR);
if (fd < 0)
{
printf("can&＃39;t open!\n");
return -1;
}
close(fd);
return 0;
}

# insmod system_dead.ko
sysdead_drv_init success!
# ./test

程序会卡死&＃xff0c;输入会没有任何反应&＃xff0c;因为我们在 sysdead_test_open 函数里引入了一个死循环&＃xff0c;当应用程序调用open的
时候&＃xff0c;程序就陷入死循环出不来了。

这种调试方法的思想是&＃xff0c;如果内核僵死了&＃xff0c;我们认为可能是卡在某个程序里出不来了&＃xff0c;这个时候内核只有这一个程序在运行。
我们调试方法就是&＃xff0c;如果我们判断一个进程连续执行超过10s&＃xff0c;我们就认为这个进程陷入了死循环&＃xff0c;把进程号&＃xff08;可能是没用的&＃xff0c;因为
卡死了要重新启动&＃xff0c;在运行时进程号就变了&＃xff09;和PC值打印出来&＃xff0c;根据PC值来定位当前执行的代码。

那么怎么去修改内核来实现我们的这种思想呢&＃xff1f;

由之前的说明我们知道&＃xff0c;无论什么时候内核的脉搏总是有的&＃xff0c;就是系统时钟中断。就算卡死的时候也还是有的&＃xff0c;因为它是一个
硬件中断&＃xff0c;卡死的时候也会响应中断。所以我们在系统中断响应函数里添加一段代码实现我们上面的调试思想。

在linux-2.6.30.4\arch\arm\kernel\irq.c 文件中&＃xff0c;找到asm_do_IRQ函数&＃xff0c;修改如下&＃xff1a;

点击(此处)折叠或打开

asmlinkage void __exception asm_do_IRQ(unsigned int irq, struct pt_regs *regs)
{
struct pt_regs *old_regs &＃61; set_irq_regs(regs);
//add by llz in 2015.4.1
static pid_t pre_pid &＃61; 0;
static int cnt &＃61; 0;
if(30 &＃61;&＃61; irq)
{
if(pre_pid &＃61;&＃61; current->pid)
cnt&＃43;&＃43;;
else
{
cnt &＃61; 0;
pre_pid &＃61; current->pid;
}
if(cnt &＃61;&＃61; 10*HZ)
{
cnt &＃61; 0;
printk("asm_do_IRQ -> s3c2410_timer_irq : pid &＃61; %d , task_name &＃61; %s , ", current->pid, current->comm);
printk("pc &＃61; %08x\n", (unsigned int )regs->ARM_pc);
}
}
//addition ends here
irq_enter();
/*
* Some hardware gives randomly wrong interrupts. Rather
* than crashing, do something sensible.
*/
if (irq >&＃61; NR_IRQS)
handle_bad_irq(irq, &bad_irq_desc);
else
generic_handle_irq(irq);
/* AT91 specific workaround */
irq_finish(irq);
irq_exit();
set_irq_regs(old_regs);
}

添加的部分为红色的字体&＃xff0c;注意第6、7行的pre_pid和cnt变量定义要用static修饰&＃xff0c;这样初值只会赋一次&＃xff0c;不然会判断错误。
具体原因请百度static的作用。30号中断是代表时钟中断&＃xff0c;见linux-2.6.30.4\arch\arm\mach-s3c2410\include\mach\irqs.h。
current是结构体struct task_struct&＃xff0c;表示当前进程。还有struct pt_regs&＃xff0c;请百度。
通过current->pid, current->comm&＃xff0c;regs->ARM_pc分别打印当前进程号、进程名、PC值。

接下来编译内核&＃xff1a;make uImage
然后启动开发板&＃xff0c;进入uboot模式&＃xff0c;通过tftp下载uImage镜像&＃xff0c;并启动&＃xff1a;
> tftp 0x30007fc0 uImage
> bootm 0x30007fc0

&＃xff08;这个内核是用来调试的&＃xff0c;每一次编译烧到nand flash太麻烦。关于tftp下载内核启动请参见另一篇博文&＃xff1a;
http://blog.chinaunix.net/uid-29401328-id-4930747.html&＃xff09;

下面再来测试一次&＃xff1a;
# insmod system_dead.ko
sysdead_drv_init success!
# ./test // 卡死了&＃xff0c;等10s会打印如下信息
asm_do_IRQ -> s3c2410_timer_irq : pid &＃61; 635 , task_name &＃61; test , pc &＃61; bf0d700c
asm_do_IRQ -> s3c2410_timer_irq : pid &＃61; 635 , task_name &＃61; test , pc &＃61; bf0d700c

我们一眼就看出来了&＃xff0c;问题出现在test这个程序上&＃xff0c;但具体出在哪不清楚&＃xff0c;就要根据PC值去分析了&＃xff0c;分析方法和之前博文讲的一样。
下面再唠叨一遍&＃xff1a;

1. 找到bf0d700c所在的函数。
现在的系统僵死了&＃xff0c;我们没办法继续下去&＃xff0c;只有重启系统。这里注意一个问题&＃xff0c;重启系统使用的内核要和僵死时使用的内核是同一个。
因为如果内核变了&＃xff0c;我们就很难还原僵死前的状态了&＃xff0c;新内核pc &＃61; bf0d700c可能代表不同的代码。

用tftp启动刚才的内核&＃xff0c;插入模块system_dead.ko。
先去查看内核源码下的 System.map 文件&＃xff0c;看PC地址是否属于其中&＃xff0c;这里不属于&＃xff08;那里面是内核函数&＃xff0c;地址都是以C开头&＃xff09;。
然后查看开发板的模块地址&＃xff1a;cat cat /proc/kallsyms > kall.txt
打开kall.txt&＃xff0c;在里面查找PC值相近的地址&＃xff08;有可能直接查到&＃xff0c;也有可能PC位于某段地址之间&＃xff09;&＃xff0c;这里查到&＃xff1a;

00000000 a system_dead.c [system_dead]
bf0d7000 t $a [system_dead]
bf0d7000 t sysdead_test_open [system_dead]
bf0d7010 t sysdead_drv_exit [system_dead]

可知pc &＃61; bf0d700c位于sysdead_test_open函数中。接下来去分析这个函数

2. 分析发生错误的函数
因为我们这里的代码很短&＃xff0c;所以可以很快的定位出问题&＃xff0c;但当代码很长时&＃xff0c;可能就需要看汇编了。这里给出方法

反汇编sysdead_test_open函数位于的模块system_dead.ko&＃xff1a;
arm-none-linux-gnueabi-objdump system_dead.ko -D > system_dead.dis

打开system_dead.dis&＃xff1a;&＃xff08;贴出对我们有用的那段&＃xff09;
00000000 :
0: e1a0c00d mov ip, sp
4: e92dd800 push {fp, ip, lr, pc}
8: e24cb004 sub fp, ip, #4 ; 0x4
c: eafffffe b c

到这里就需要用汇编去分析了&＃xff0c;我们这里的错误比较明显&＃xff0c;就是一直跳转到自己这个函数里&＃xff0c;调不出去了。

注&＃xff1a;有可能两次发生僵死时PC值不一样&＃xff0c;就算僵死在同一段代码&＃xff0c;PC值也可能不一样。因为如果死循环是一段代码&＃xff0c;
那么僵死时&＃xff0c;程序可能正在执行这段代码当中的任意一句。

转:https://www.cnblogs.com/zzb-Dream-90Time/p/9377690.html

推荐阅读

bit
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
bit
深入解析C语言中结构体的内存对齐机制及其优化方法

为了提高CPU访问效率，C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制，并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用，从而提升程序性能。 ... [详细]

蜡笔小新 2024-11-11 11:53:59
config
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
tree
洛谷 P1531 我讨厌它 —— 线段树实现

本文介绍如何使用线段树解决洛谷 P1531 我讨厌它问题，重点在于单点更新和区间查询最大值。 ... [详细]

蜡笔小新 2024-11-12 21:27:38
window
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
import
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
import
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
config
基于Linux开源VOIP系统LinPhone[四]

****************************************************************************************** ... [详细]

蜡笔小新 2024-11-12 11:00:11
import
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
express
利用栈实现四则运算表达式的高效求值方法

本文提出了一种基于栈结构的高效四则运算表达式求值方法。该方法能够处理包含加、减、乘、除运算符以及十进制整数和小括号的算术表达式。通过定义和实现栈的基本操作，如入栈、出栈和判空等，算法能够准确地解析并计算输入的表达式，最终输出其计算结果。此方法不仅提高了计算效率，还增强了对复杂表达式的处理能力。 ... [详细]

蜡笔小新 2024-11-11 14:00:53
bit
如何在Linux中通过编程手段禁用硬件预取功能？

本文探讨了如何通过编程手段在Linux系统中禁用硬件预取功能。基于Intel® Core™微架构的应用性能优化需求，文章详细介绍了相关配置方法和代码实现，旨在帮助开发人员有效控制硬件预取行为，提升应用程序的运行效率。 ... [详细]

蜡笔小新 2024-11-10 14:02:38
config
Android 源代码解析系列（一）：init.c 文件详解

本文详细解析了 Android 系统启动过程中的核心文件 `init.c`，探讨了其在系统初始化阶段的关键作用。通过对 `init.c` 的源代码进行深入分析，揭示了其如何管理进程、解析配置文件以及执行系统启动脚本。此外，文章还介绍了 `init` 进程的生命周期及其与内核的交互方式，为开发者提供了深入了解 Android 启动机制的宝贵资料。 ... [详细]

蜡笔小新 2024-11-10 00:35:48
cmd
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
tree
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
tree
C++ 从文件中逐行读取结构体数据，并将其存储到向量中，最终输出至控制台和新文件

在C++程序中，文档A的每一行包含一个结构体数据，其中某些字段可能包含不同数量的数字。需要将这些结构体数据逐行读取并存储到向量中，随后不仅在控制台上显示，还要输出到新创建的文档B中。希望得到指导，感谢！ ... [详细]

蜡笔小新 2024-11-09 18:40:33

菌挥发油

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章