热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深入解析ELF文件格式与静态链接技术

本文详细探讨了ELF文件格式及其在静态链接过程中的应用。在C/C++代码转化为可执行文件的过程中,需经过预处理、编译、汇编和链接等关键步骤。最终生成的可执行文件不仅包含系统可识别的机器码,还遵循了严格的文件结构规范,以确保其在操作系统中的正确加载和执行。

简介

C/C++ 代码在变成可执行文件之前需要经历预处理、编译、汇编以及链接这几个步骤,最终生成的可执行文件包含了能够被系统处理的机器码。可执行文件必须按照特定的格式进行组织才能被系统加载、执行,所以可执行文件是特定于操作系统的。对于 Linux 来说是 ELF(Executable Linkable Format) 格式的文件,Windows 是 PE(Portable) 格式。对于 Java 代码,编译生成的 Class 文件也是有着特定的格式,才能被 JVM 执行。

一个程序一般由多个文件组成,文件之间会有变量和函数的引用,每个文件各自编译生成中间文件后必须经过链接才能生成最终的可执行文件。根据链接方式的不同可以分为静态链接和动态链接,静态链接是在链接期间重定位所有的符号引用,而动态链接则是在装载或者执行期间进行。

本文主要分析 Linux 下 ELF 文件的格式以及静态链接的过程。

目标文件的格式

源代码被编译生成的文件叫做目标,目标文件与可执行文件的格式是类似的,只是还没有经历链接,其中包含的有些地址还没有被调整。

目标文件中包含机器码、数据、符号表以及调试信息等,这些属性按照不同的段(Section ) 进行存储。段就是一定长度的的区域,不同的属性放在不同名字的段,具体如下所示:

可以看出,代码放在了名为 .text 的段,变量 global_init_var static_var 放在了名为 .data 的段,变量 global_uninit_var static_var 放在名为 .bss 的段。.bss 段存放的是未初始化的全局变量和局部静态变量。

上图的 EFL 文件除了几个段,还有文件头(File Header),其中包含了文件是否可执行、是静态链接还是动态链接以及目标硬件、操作系统等信息,还包括一个段表,段表是一个数组结构,描述了文件中各个段在文件中的偏移位置及段的属性等。用 readelf -h 可以读取上面代码编译后目标文件的头信息,如下图:

从上图可以看到,其中包含了文件的魔数(Magic) 、字长(class)、CPU 类型等信息,如果是可执行文件,还包括程序的入口地址。Start of section headers 的值是段表的偏移量。

目标文件中除了上面介绍的代码段和数据段,还有很多其它段,readelf -S 命令可以查看段表的信息,如下图:

可以看出,上面的目标文件总共有 12 个段,第一个为无效段,实际上是 11 个段。其中有字符串表 .strtab、符号表 .symtab 以及注释信息 .comment 等。还有一个段是 .rela.txt 段,这个是重定位表,在静态链接过程中需要用到。

静态链接

在了解了 ELF 文件的结构之后,接下来介绍静态链接的过程。以下面的代码为例:

/* a.c */
extern int shared;int main()
{int a = 100;swap(&a, &shared);
}/* b.c */
int shared = 1;void swap(int *a, int *b)
{*a ^= *b ^= *a ^= *b;
}

在上面的代码中,b.c 定义了全局符号,分别是变量 shared 和函数 swap,a.c 定义了一个全局符号 main。在 a.c 中引用了 b.c 里面的 sharedswap。用 gcc -c -fno-stack-protector a.c b.c 编译这两个文件之后(-fno-stack-protector 是关闭堆栈保护功能),生成了两个目标文件 a.ob.o,下一步就是要把这两个文件链接在一起,形成最终的可执行文件。

空间与地址分配

静态链接的第一步是把多个目标文件进行合并,一般采用相似段合并的方式。通过扫描所有的输入目标文件,并且获得它们各个段的长度、属性和位置,并且将输入目标文件中的符号表中所有的符号定义和符号引用收集起来,统一放到一个全局符号表。多个目标文件合并后如下图所示:

符号地址的确定

利用上一步收集到的数据,进行符号解析与重定位、调整代码中的地址等。利用命令 ld a.o b.o -e main -o aba.ob.o 链接(-e main 是将 main 函数作为程序的入口),生成可执行文件 ab。链接前后段的地址信息如下所示:

上图是 a.ob.o 以及链接后的 ab 的地址信息。其中 Size 是段的大小, VMA 是虚拟地址。对于 a.ob.o.text 段来说,大小分别是 0000002c0000004b, 加起来正好是 ab.text 段的大小 00000077。另外, a.ob.o 的 VMA 都是 00000000,此时它们还没有分配地址,而在 ab 中,地址变为 00000000004000e8,这就是分配的虚拟地址,当 ab 被加载到内存中后, .text 段的起始地址便是这个。

段的地址被确定后,内部函数和变量的地址也就确定了,因为在每个段内,符号的表示是一个相对于段起始位置的偏移量。当段的起始位置被确定后,每个符号只要在偏移量的基础上加上这个起始位置的地址就行。但是对于引用的外部符号来说,它们的地址还不得知,需要经过符号解析和重定位的过程。

符号解析与重定位

在 a.c 中引用了变量 shared 和函数 swap ,单独编译 a.c 的时候并不知道 b.c 这个文件,所以在 a.o 中,用到 shared 的地方用 0 地址代替,等到链接阶段,能够确定这个变量的地址了,再把地址进行调整。

这里的问题是链接器如何知道哪些指令需要被调整呢?这就用到上面提到过的重定位表,命令 objdump -r a.o 可以查看 a.o 中的重定位表,如下图:

每一个需要被重定位的地方叫做一个重定位入口,可以看到,a.o 中需要重定位的两个符号 sharedswap。将重定位入口的地址进行修正,才能完成链接过程,最终生成的可执行文件便可以被系统正常运行。

总结

代码从文本形式到最终的可执行文件需要经历多个过程,其中链接主要做的是多个目标文件的合并以及符号的解析与重定位,最终生成特定格式的可执行文件。本文大概地介绍了 ELF 文件的结构和静态链接的主要步骤,更详细的内容可以查看相关书籍深入了解。

参考

  • 《程序员的自我修养:链接、装载与库》
  • 《深入理解计算机系统》

如果我的文章对您有帮助,不妨点个赞支持一下(^_^)



推荐阅读
  • 兆芯X86 CPU架构的演进与现状(国产CPU系列)
    本文详细介绍了兆芯X86 CPU架构的发展历程,从公司成立背景到关键技术授权,再到具体芯片架构的演进,全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]
  • 在Effective Java第三版中,建议在方法返回类型中优先考虑使用Collection而非Stream,以提高代码的灵活性和兼容性。 ... [详细]
  • java类名的作用_java下Class.forName的作用是什么,为什么要使用它?
    湖上湖返回与带有给定字符串名的类或接口相关联的Class对象。调用此方法等效于:Class.forName(className,true,currentLoader) ... [详细]
  • 在Java开发中,保护代码安全是一个重要的课题。由于Java字节码容易被反编译,因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆,以及其基本原理和常见问题。 ... [详细]
  • 深入解析Java中的空指针异常及其预防策略
    空指针异常(NullPointerException,简称NPE)是Java编程中最常见的异常之一。尽管其成因显而易见,但开发人员往往容易忽视或未能及时采取措施。本文将详细介绍如何有效避免空指针异常,帮助开发者提升代码质量。 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • Beetl是一款先进的Java模板引擎,以其丰富的功能、直观的语法、卓越的性能和易于维护的特点著称。它不仅适用于高响应需求的大型网站,也适合功能复杂的CMS管理系统,提供了一种全新的模板开发体验。 ... [详细]
  • 本文介绍了一种方法,通过使用Python的ctypes库来调用C++代码。具体实例为实现一个简单的加法器,并详细说明了从编写C++代码到编译及最终在Python中调用的全过程。 ... [详细]
  • 本文通过分析一个具体的案例,探讨了64位Linux系统对32位应用程序的兼容性问题。案例涉及OpenVPN客户端在64位系统上的异常行为,通过逐步排查和代码测试,最终定位到了与TUN/TAP设备相关的系统调用兼容性问题。 ... [详细]
  • 汇编语言:编程世界的始祖,连C语言都敬畏三分!
    当C语言还在萌芽阶段时,它首次接触到了汇编语言,并对其简洁性感到震惊。尽管汇编语言的指令极其简单,但它却是所有现代编程语言的基础,其重要性不言而喻。 ... [详细]
  • 本文探讨了Java中线程的多种终止方式及其状态转换,提供了关于如何安全有效地终止线程的指导。 ... [详细]
  • Flutter 核心技术与混合开发模式深入解析
    本文深入探讨了 Flutter 的核心技术,特别是其混合开发模式,包括统一管理模式和三端分离模式,以及混合栈原理。通过对比不同模式的优缺点,帮助开发者选择最适合项目的混合开发策略。 ... [详细]
  • 阿里面试题解析:分库分表后的无限扩容瓶颈与解决方案
    本文探讨了在分布式系统中,分库分表后的无限扩容问题及其解决方案。通过分析不同阶段的服务架构演变,提出了单元化作为解决数据库连接数过多的有效方法。 ... [详细]
  • 解决Jenkins编译过程中ERROR: Failed to Parse POMs的问题
    在使用Jenkins进行自动化构建时,有时会遇到“ERROR: Failed to parse POMs”的错误。本文将详细分析该问题的原因,并提供有效的解决方案。 ... [详细]
  • JVM钩子函数的应用场景详解
    本文详细介绍了JVM钩子函数的多种应用场景,包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示,帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]
author-avatar
zengqingwei1220
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有