高端内存管理技术：提升系统性能的关键

作者：后起之秀 | 来源：互联网 | 2023-10-14 03:20

作者：文松链接：https:www.zhihu.comquestion280526042answer1615449221来源：知乎一、高

作者&＃xff1a;文松
链接&＃xff1a;https://www.zhihu.com/question/280526042/answer/1615449221
来源&＃xff1a;知乎

一、高端内存的由来&＃xff08;为什么需要高端内存&＃xff09;

在32位地址时代&＃xff0c;最大可寻址0xFFFFFFFF&＃xff0c;即4GB&＃xff0c;因此虚拟地址空间有4GB&＃xff0c;通常32位Linux内核地址空间划分0~3G为用户空间&＃xff0c;3~4G为内核空间&＃xff0c;即Linux内核虚拟地址空间只有1G。

32位地址空间

实际的计算机体系结构有硬件的限制&＃xff0c;这约束了页框的使用方式&＃xff0c;其中&＃xff0c;Linux内核必须处理x86体系结构的两种硬件约束&＃xff1a;

ISA总线的直接内存存取&＃xff08;DMA&＃xff09;处理器有一个严格的限制&＃xff1a;它们只能对RAM的前16MB地址进行寻址。
在具有大容量RAM的现代32位计算机中&＃xff0c;CPU不能直接访问所有的物理内存&＃xff0c;因为现行地址大小太小。

为了应对这种限制&＃xff0c;对于x86机器&＃xff0c;Linux内核将内存区域又被分为了3个管理区&＃xff08;zone&＃xff09;。

	区域
ZONE_DMA	低于16MB的内存空间
ZONE_NORMAL	16MB~895MB
ZONE_HIGHMEM	896MB~物理内存结束

在内核或应用程序访问内存时&＃xff0c;所操作的内存地址都为虚拟地址&＃xff0c;而对应到真正的物理内存地址&＃xff0c;需要地址一对一的映射。对于应用程序&＃xff0c;虚拟地址到物理地址的转换需要MMU&＃xff0c;而对于内核前两个管理区的内存空间被直接映射到虚拟地址空间中。

对于内核&＃xff0c;直接映射时虚拟地址0xc0000003对应的物理地址为0x00000003&＃xff0c;0xc0000004对应的物理地址为0x00000004。虚拟地址与物理地址有如下的对应关系&＃xff1a;

物理地址 &＃61; 虚拟地址 – 0xC0000000

在Linux内核中&＃xff0c;有虚拟地址向物理地址转换的宏&＃xff1a;

__virt_to_phys

也是直接通过上面的对应关系计算而来~

如果按照上面所说的采用直接映射的方式&＃xff0c;将内核1G的地址空间全部直接映射&＃xff0c;就会发现内核只能访问1GB的物理内存&＃xff0c;但是实际上我们的物理内存&＃xff0c;往往是8G、16G&＃xff0c;甚至更高&＃xff0c;那么其他空间内核将无法访问和管控。所以必须要有一种灵活的方式&＃xff0c;既减少开销&＃xff0c;同时又让内核能够访问全部的物理内存&＃xff0c;Linux高端内存十分必要。

Linux 规定“内核直接映射空间” 最多映射 896M 物理内存~

高端内存就是帮助我们访问除了直接映射的896MB物理内存之外的其他内存空间。

二、实现方式

内核是如何借助128MB高端内存地址空间是如何实现访问可以所有物理内存呢&＃xff1f;

在《深入理解LINUX内核》中介绍了&＃xff0c;内核可以采用三种不同的机制将页框映射到高端内存&＃xff0c;分别叫做&＃xff1a;

永久内存映射
临时内存映射
非连续内存分配

当内核想访问高于896MB物理地址内存时&＃xff0c;从0xF8000000 ~ 0xFFFFFFFF地址空间范围内找一段相应大小空闲的虚拟地址空间&＃xff0c;借用一会。

借用这段虚拟地址空间&＃xff0c;建立映射到想访问的那段物理内存&＃xff08;即填充内核PTE页面表&＃xff09;&＃xff0c;临时用一会&＃xff0c;用完后归还。这样别人也可以借用这段地址空间访问其他物理内存&＃xff0c;实现了使用有限的地址空间&＃xff0c;访问所有所有物理内存。

&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;&＃43;

&＃64;Swee Neil

的回答已经把core concept介绍清楚了&＃xff0c;我这边补充一些内容。

要理解high memory是要解决什么问题&＃xff0c;首先要了解下内核地址转换的方式。在内核中我们往往要频繁地进行虚拟/物理地址操作&＃xff0c;在这种情况下&＃xff0c;快速高效的virtual to physical转换就很重要。可如果按照多级页表path walk去查找&＃xff0c;内存访问开销就比较大&＃xff0c;因此一种简单的"fix-mapping"思路是&＃xff1a;将0xC0000000-0xFFFFFFFF的虚拟地址直接映射到0x00000000-0x3FFFFFFF&＃xff0c;也就是将最高的1G地址全部映射到最低的1G&＃xff0c;这样虚拟地址与物理地址之间就有固定的3G offset&＃xff0c;每当遇到一个内核中的符号&＃xff0c;我们需要得到其物理地址时&＃xff0c;直接减去3G即可。

有人可能会问&＃xff0c;那0-3G的比较低的那些虚拟地址怎么转换呢&＃xff1f;答案是不用&＃xff0c;也就是内核自己不使用0-3G的虚拟地址&＃xff08;除非是处理syscall&＃xff09;。

上述这种简单粗暴的处理方式很方便理解&＃xff0c;效率也比较高&＃xff08;只需要简单的减法操作&＃xff09;&＃xff0c;但也有自己的局限性。在32位处理器下&＃xff0c;按照经典用户态与内核3:1的划分比例&＃xff0c;内核能够使用的虚拟地址只有1G大&＃xff0c;按照固定offset的映射方式&＃xff0c;这意味着内核能够使用的物理地址大小也只有1G。但...随着内核越来越复杂&＃xff0c;各种数据结构对内存的需求也越来越高&＃xff0c;比如用来物理页的page结构体&＃xff0c;仅仅在其上增加一个12字节的reverse mapping管理结构&＃xff0c;就会使得page总体占用的内存增高400KB&＃xff0c;将近96个物理页大小[1]&＃xff1b;即便内存技术的发展使得高于4G的内存变得十分常见&＃xff0c;受限于32位系统与这种fix-mapping&＃xff0c;内核可用的物理内存大小仍然被死死地限制在1G。

以上&＃xff0c;算是对high memory要解决问题的背景介绍。通俗地讲&＃xff0c;"high memory"要解决的是32位下虚拟地址空间不足带来的问题&＃xff08;而显然&＃xff0c;对64位系统这个问题就不存在了&＃xff09;。实际上在很早以前这个问题就在lwn上讨论过了[2] &＃xff0c;在当时已经有一些临时的方法去规避这个问题&＃xff0c;比如重新划分用户/内核的地址空间比例&＃xff0c;变为2.5:1.5等等&＃xff0c;但在特定场景下&＃xff08;比如用户态使用的内存非常非常多&＃xff09;会使得用户态运行效率降低&＃xff0c;同时带来一些非对其问题&＃xff0c;因此也不是一个很好的办法。

怎么解决呢&＃xff1f;

如

&＃64;Swee Neil

所提到的&＃xff0c;我们可以把这1G&＃xff0c;划分成两部分&＃xff0c;一部分用来fix-mapping&＃xff0c;一部分用来dynamic-mapping。以x86为例&＃xff0c;实际中的做法是&＃xff0c;0xC0000000-0xF7FFFFFF的896MB用作fix-mapping&＃xff0c;0xF8000000-0xFFFFFFFF的128MB用作dynamic-mapping&＃xff0c;前者仍然对应于物理地址的0x00000000-0x37FFFFFF&＃xff08;只不过部分要优先分配给DMA&＃xff09;&＃xff1b;后者就是所谓的high memory。当然&＃xff0c;high memory也有自己的缺点&＃xff0c;就是效率比较低&＃xff08;既然是动态的&＃xff0c;就绕不开重映射、pte操作等等&＃xff09;。

实际上high memory还被划分为了3个区域[3]&＃xff0c;一部分用于vmalloc分配虚拟地址上连续的内存&＃xff0c;一部分用于较长期的动态映射&＃xff08;persistent kernel mappings&＃xff09;&＃xff0c;还有一部分用于编译时可以直接分配物理地址的高端固定映射&＃xff08;fixmaps&＃xff09;&＃xff1a;

x86_32的memlayout

来到64位系统&＃xff0c;这个问题天然就不存在&＃xff0c;因此在64位系统的memlayout[3]中就没有high memory&＃xff0c;但vmalloc仍然是内核的一个重要部分&＃xff0c;因此memlayout中仍然有这一部分&＃xff1a;

x86_64的memlayout

参考

^Kernel development LWN - Kernel
^Virtual Memory I: the problem Virtual Memory I: the problem [LWN.net]
^abMauerer, W. (2010). Professional Linux Kernel Architecture. Somerset: Wiley.

推荐阅读

python
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
main
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
python
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
hash
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
input
UNIX进程间通信（IPC）详解

本文深入探讨了UNIX/Linux系统中的进程间通信（IPC）机制，包括消息传递、同步和共享内存等。详细介绍了管道（Pipe）、有名管道（FIFO）、Posix和System V消息队列、互斥锁与条件变量、读写锁、信号量以及共享内存的使用方法和应用场景。 ... [详细]

蜡笔小新 2024-12-20 10:14:51
bit
Linux内核中的misc设备驱动框架详解

本文详细介绍了Linux内核中misc设备驱动框架的实现原理及应用方法，包括misc设备的基本概念、驱动框架的初始化过程、数据结构分析以及设备的注册与注销流程。 ... [详细]

蜡笔小新 2024-12-19 10:11:55
string
数据同步异步加载handler Looper

MainActivityimportandroid.app.Activity;importandroid.os.Bundle;importandroid.os.Handler;im ... [详细]

蜡笔小新 2024-12-16 11:29:01
string
使用arm-eabi-gdb调试Android C/C++应用程序的详细指南

本文详细介绍如何使用arm-eabi-gdb调试Android平台上的C/C++程序。通过具体步骤和实用技巧，帮助开发者更高效地进行调试工作。 ... [详细]

蜡笔小新 2024-12-28 10:25:18
string
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
hash
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
rsa
使用SSH密钥对实现Linux系统免密码登录

本文详细介绍如何在Linux系统中配置SSH密钥对，以实现从一台主机到另一台主机的无密码登录。内容涵盖密钥对生成、公钥分发及权限设置等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 16:17:45
string
深入解析 Android IPC 中的 Messenger 机制

本文详细介绍了 Android 中基于消息传递的进程间通信（IPC）机制——Messenger。通过实例和源码分析，帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]

蜡笔小新 2024-12-21 11:11:40
spring
docker镜像重启_docker怎么启动镜像

docker镜像重启_docker怎么启动镜像dock ... [详细]

蜡笔小新 2024-12-20 16:34:52
tree
Linux下NFS客户端配置详解

NFS（Network File System）即网络文件系统，是一种分布式文件系统协议，主要用于Unix和类Unix系统之间的文件共享。本文详细介绍NFS的配置文件/etc/exports和相关服务配置，帮助读者理解如何在Linux环境中配置NFS客户端。 ... [详细]

蜡笔小新 2024-12-18 18:23:35
tree
时间序列分析入门：平稳性与白噪声检验

本文详细介绍了时间序列分析中的两个基本概念——平稳性和白噪声的检验方法，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-15 05:11:34

后起之秀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章