热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深入解析ELF文件格式与静态链接技术

本文详细探讨了ELF文件格式及其在静态链接过程中的应用。在C/C++代码转化为可执行文件的过程中,需经过预处理、编译、汇编和链接等关键步骤。最终生成的可执行文件不仅包含系统可识别的机器码,还遵循了严格的文件结构规范,以确保其在操作系统中的正确加载和执行。

简介

C/C++ 代码在变成可执行文件之前需要经历预处理、编译、汇编以及链接这几个步骤,最终生成的可执行文件包含了能够被系统处理的机器码。可执行文件必须按照特定的格式进行组织才能被系统加载、执行,所以可执行文件是特定于操作系统的。对于 Linux 来说是 ELF(Executable Linkable Format) 格式的文件,Windows 是 PE(Portable) 格式。对于 Java 代码,编译生成的 Class 文件也是有着特定的格式,才能被 JVM 执行。

一个程序一般由多个文件组成,文件之间会有变量和函数的引用,每个文件各自编译生成中间文件后必须经过链接才能生成最终的可执行文件。根据链接方式的不同可以分为静态链接和动态链接,静态链接是在链接期间重定位所有的符号引用,而动态链接则是在装载或者执行期间进行。

本文主要分析 Linux 下 ELF 文件的格式以及静态链接的过程。

目标文件的格式

源代码被编译生成的文件叫做目标,目标文件与可执行文件的格式是类似的,只是还没有经历链接,其中包含的有些地址还没有被调整。

目标文件中包含机器码、数据、符号表以及调试信息等,这些属性按照不同的段(Section ) 进行存储。段就是一定长度的的区域,不同的属性放在不同名字的段,具体如下所示:

可以看出,代码放在了名为 .text 的段,变量 global_init_var static_var 放在了名为 .data 的段,变量 global_uninit_var static_var 放在名为 .bss 的段。.bss 段存放的是未初始化的全局变量和局部静态变量。

上图的 EFL 文件除了几个段,还有文件头(File Header),其中包含了文件是否可执行、是静态链接还是动态链接以及目标硬件、操作系统等信息,还包括一个段表,段表是一个数组结构,描述了文件中各个段在文件中的偏移位置及段的属性等。用 readelf -h 可以读取上面代码编译后目标文件的头信息,如下图:

从上图可以看到,其中包含了文件的魔数(Magic) 、字长(class)、CPU 类型等信息,如果是可执行文件,还包括程序的入口地址。Start of section headers 的值是段表的偏移量。

目标文件中除了上面介绍的代码段和数据段,还有很多其它段,readelf -S 命令可以查看段表的信息,如下图:

可以看出,上面的目标文件总共有 12 个段,第一个为无效段,实际上是 11 个段。其中有字符串表 .strtab、符号表 .symtab 以及注释信息 .comment 等。还有一个段是 .rela.txt 段,这个是重定位表,在静态链接过程中需要用到。

静态链接

在了解了 ELF 文件的结构之后,接下来介绍静态链接的过程。以下面的代码为例:

/* a.c */
extern int shared;int main()
{int a = 100;swap(&a, &shared);
}/* b.c */
int shared = 1;void swap(int *a, int *b)
{*a ^= *b ^= *a ^= *b;
}

在上面的代码中,b.c 定义了全局符号,分别是变量 shared 和函数 swap,a.c 定义了一个全局符号 main。在 a.c 中引用了 b.c 里面的 sharedswap。用 gcc -c -fno-stack-protector a.c b.c 编译这两个文件之后(-fno-stack-protector 是关闭堆栈保护功能),生成了两个目标文件 a.ob.o,下一步就是要把这两个文件链接在一起,形成最终的可执行文件。

空间与地址分配

静态链接的第一步是把多个目标文件进行合并,一般采用相似段合并的方式。通过扫描所有的输入目标文件,并且获得它们各个段的长度、属性和位置,并且将输入目标文件中的符号表中所有的符号定义和符号引用收集起来,统一放到一个全局符号表。多个目标文件合并后如下图所示:

符号地址的确定

利用上一步收集到的数据,进行符号解析与重定位、调整代码中的地址等。利用命令 ld a.o b.o -e main -o aba.ob.o 链接(-e main 是将 main 函数作为程序的入口),生成可执行文件 ab。链接前后段的地址信息如下所示:

上图是 a.ob.o 以及链接后的 ab 的地址信息。其中 Size 是段的大小, VMA 是虚拟地址。对于 a.ob.o.text 段来说,大小分别是 0000002c0000004b, 加起来正好是 ab.text 段的大小 00000077。另外, a.ob.o 的 VMA 都是 00000000,此时它们还没有分配地址,而在 ab 中,地址变为 00000000004000e8,这就是分配的虚拟地址,当 ab 被加载到内存中后, .text 段的起始地址便是这个。

段的地址被确定后,内部函数和变量的地址也就确定了,因为在每个段内,符号的表示是一个相对于段起始位置的偏移量。当段的起始位置被确定后,每个符号只要在偏移量的基础上加上这个起始位置的地址就行。但是对于引用的外部符号来说,它们的地址还不得知,需要经过符号解析和重定位的过程。

符号解析与重定位

在 a.c 中引用了变量 shared 和函数 swap ,单独编译 a.c 的时候并不知道 b.c 这个文件,所以在 a.o 中,用到 shared 的地方用 0 地址代替,等到链接阶段,能够确定这个变量的地址了,再把地址进行调整。

这里的问题是链接器如何知道哪些指令需要被调整呢?这就用到上面提到过的重定位表,命令 objdump -r a.o 可以查看 a.o 中的重定位表,如下图:

每一个需要被重定位的地方叫做一个重定位入口,可以看到,a.o 中需要重定位的两个符号 sharedswap。将重定位入口的地址进行修正,才能完成链接过程,最终生成的可执行文件便可以被系统正常运行。

总结

代码从文本形式到最终的可执行文件需要经历多个过程,其中链接主要做的是多个目标文件的合并以及符号的解析与重定位,最终生成特定格式的可执行文件。本文大概地介绍了 ELF 文件的结构和静态链接的主要步骤,更详细的内容可以查看相关书籍深入了解。

参考

  • 《程序员的自我修养:链接、装载与库》
  • 《深入理解计算机系统》

如果我的文章对您有帮助,不妨点个赞支持一下(^_^)



推荐阅读
  • 【并发编程】全面解析 Java 内存模型,一篇文章带你彻底掌握
    本文深入解析了 Java 内存模型(JMM),从基础概念到高级特性进行全面讲解,帮助读者彻底掌握 JMM 的核心原理和应用技巧。通过详细分析内存可见性、原子性和有序性等问题,结合实际代码示例,使开发者能够更好地理解和优化多线程并发程序。 ... [详细]
  • 本文详细探讨了OpenCV中人脸检测算法的实现原理与代码结构。通过分析核心函数和关键步骤,揭示了OpenCV如何高效地进行人脸检测。文章不仅提供了代码示例,还深入解释了算法背后的数学模型和优化技巧,为开发者提供了全面的理解和实用的参考。 ... [详细]
  • Java集合框架特性详解与开发实践笔记
    Java集合框架特性详解与开发实践笔记 ... [详细]
  • 深入解析Netty:基础理论与IO模型概述
    深入解析Netty:基础理论与IO模型概述 ... [详细]
  • 如何在 IntelliJ IDEA 中高效搭建和运行 Spring Boot 项目
    本文详细介绍了如何在 IntelliJ IDEA 中高效搭建和运行 Spring Boot 项目,涵盖了项目创建、配置及常见问题的解决方案。通过本指南,开发者可以快速掌握在 IntelliJ IDEA 中进行 Spring Boot 开发的最佳实践,提高开发效率。 ... [详细]
  • 本书详细介绍了在最新Linux 4.0内核环境下进行Java与Linux设备驱动开发的全面指南。内容涵盖设备驱动的基本概念、开发环境的搭建、操作系统对设备驱动的影响以及具体开发步骤和技巧。通过丰富的实例和深入的技术解析,帮助读者掌握设备驱动开发的核心技术和最佳实践。 ... [详细]
  • Node.js 教程第五讲:深入解析 EventEmitter(事件监听与发射机制)
    本文将深入探讨 Node.js 中的 EventEmitter 模块,详细介绍其在事件监听与发射机制中的应用。内容涵盖事件驱动的基本概念、如何在 Node.js 中注册和触发自定义事件,以及 EventEmitter 的核心 API 和使用方法。通过本教程,读者将能够全面理解并熟练运用 EventEmitter 进行高效的事件处理。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 本文介绍了Android动画的基本概念及其主要类型。Android动画主要包括三种形式:视图动画(也称为补间动画或Tween动画),主要通过改变视图的属性来实现动态效果;帧动画,通过顺序播放一系列预定义的图像来模拟动画效果;以及属性动画,通过对对象的属性进行平滑过渡来创建更加复杂的动画效果。每种类型的动画都有其独特的应用场景和实现方式,开发者可以根据具体需求选择合适的动画类型。 ... [详细]
  • Java服务问题快速定位与解决策略全面指南 ... [详细]
  • 计算 n 叉树中各节点子树的叶节点数量分析 ... [详细]
  • 《软件测试精要》深度解析与实战经验分享
    《软件测试精要》深度解析与实战经验分享,系统梳理了软件测试的核心概念与关键原则,结合实际项目中的测试经验和教训,详细探讨了测试分类、测试权衡要素、测试效率、测试覆盖率以及测试框架的引入和用例设计等内容,为读者提供了全面而实用的指导。 ... [详细]
  • 浅析Java泛型及其应用
    Java泛型是自JDK 5引入的一项重要特性,旨在增强代码的类型安全性和复用性。通过泛型,开发人员可以在编译阶段进行类型检查,有效避免运行时的类型转换错误。本文将探讨Java泛型的基本概念、实现机制及其在实际开发中的应用场景,帮助读者深入理解并灵活运用这一强大工具。 ... [详细]
  • 在Java中,使用`java.awt.Frame`类可以轻松创建窗口,并通过简单的方法设置窗口标题。本文详细介绍了如何在自定义的`BallGame`类中扩展`Frame`类,并实现窗口的创建与标题设置。通过示例代码展示了具体实现步骤,帮助开发者快速掌握这一基础技能。 ... [详细]
  • 本文详细解析了JSONP(JSON with Padding)的跨域机制及其工作原理。JSONP是一种通过动态创建``标签来实现跨域请求的技术,其核心在于利用了浏览器对``标签的宽松同源策略。文章不仅介绍了JSONP的产生背景,还深入探讨了其具体实现过程,包括如何构造请求、服务器端如何响应以及客户端如何处理返回的数据。此外,还分析了JSONP的优势和局限性,帮助读者全面理解这一技术在现代Web开发中的应用。 ... [详细]
author-avatar
zengqingwei1220
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有