当前位置: 开发笔记 > 编程语言 > 正文

详解字符串在Python内部是如何省内存的

作者：手机用户2502922685 | 来源：互联网 | 2023-05-19 11:09

这篇文章主要介绍了详解字符串在Python内部是如何省内存的，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着

起步

Python3 起，str 就采用了 Unicode 编码（注意这里并不是 utf8 编码，尽管 .py 文件默认编码是 utf8 ）。每个标准 Unicode 字符占用 4 个字节。这对于内存来说，无疑是一种浪费。

Unicode 是表示了一种字符集，而为了传输方便，衍生出里如 utf8 , utf16 等编码方案来节省存储空间。Python内部存储字符串也采用了类似的形式。

三种内部表示Unicode字符串

为了减少内存的消耗，Python使用了三种不同单位长度来表示字符串：

每个字符 1 个字节（Latin-1）
每个字符 2 个字节（UCS-2）
每个字符 4 个字节（UCS-4）

源码中定义字符串结构体：

# Include/unicodeobject.h
typedef uint32_t Py_UCS4;
typedef uint16_t Py_UCS2;
typedef uint8_t Py_UCS1;

# Include/cpython/unicodeobject.h
typedef struct {
  PyCompactUnicodeObject _base;
  union {
    void *any;
    Py_UCS1 *latin1;
    Py_UCS2 *ucs2;
    Py_UCS4 *ucs4;
  } data;           /* Canonical, smallest-form Unicode buffer */
} PyUnicodeObject;

如果字符串中所有字符都在 ascii 码范围内，那么就可以用占用 1 个字节的 Latin-1 编码进行存储。而如果字符串中存在了需要占用两个字节（比如中文字符），那么整个字符串就将采用占用 2 个字节 UCS-2 编码进行存储。

这点可以通过 sys.getsizeof 函数外部窥探来验证这个结论：

如图，存储 "zh" 所需的存储空间比 "z" 多 1 个字节， h 在这里占了 1 个字节；

存储 "z中" 所需的存储空间比 "中" 多了 2 个字节，z 在这里占了 2 个字节。

大多数的自然语言采用 2 字节的编码就够了。但如果有一个 1G 的 ascii 文本加载到内存后，在文本中插入了一个 emoji 表情，那么字符串所需的空间将扩大到 4 倍，是不是很惊喜。

为什么内部不采用 utf8 进行编码

最受欢迎的 Unicode 编码方案，Python内部却不使用它，为什么？

这里就得说下 utf8 编码带来的缺点。这种编码方案每个字符的占用字节长度是变化的，这就导致了无法按所以随机访问单个字符，例如 string[n] （使用utf8编码）则需要先统计前n个字符占用的字节长度。所以由 O(1) 变成了 O(n) ，这更无法让人接受。

因此Python内部采用了定长的方式存储字符串。

字符串驻留机制

另一个节省内存的方式就是将一些短小的字符串做成池，当程序要创建字符串对象前检查池中是否有满足的字符串。在内部中，仅包含下划线（_）、字母和数字的长度不高过 20 的字符串才能驻留。驻留是在代码编译期间进行的，代码中的如下会进行驻留检查：

空字符串 "" 及所有；
变量名；
参数名；
字符串常量（代码中定义的所有字符串）；
字典键；
属性名称；

驻留机制节省大量的重复字符串内存。在内部，字符串驻留池由一个全局的 dict 维护，该字段将字符串用作键:

void PyUnicode_InternInPlace(PyObject **p)
{
  PyObject *s = *p;
  PyObject *t;

  if (s == NULL || !PyUnicode_Check(s))
    return;

  // 对PyUnicodeObjec进行类型和状态检查
  if (!PyUnicode_CheckExact(s))
    return;
  if (PyUnicode_CHECK_INTERNED(s))
    return;
  // 创建intern机制的dict
  if (interned == NULL) {
    interned = PyDict_New();
    if (interned == NULL) {
      PyErr_Clear(); /* Don"t leave an exception */
      return;
    }
  }

  // 对象是否存在于inter中
  t = PyDict_SetDefault(interned, s, s);

  // 存在， 调整引用计数
  if (t != s) {
    Py_INCREF(t);
    Py_SETREF(*p, t);
    return;
  }
  /* The two references in interned are not counted by refcnt.
    The deallocator will take care of this */
  Py_REFCNT(s) -= 2;
  _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

变量 interned 就是全局存放字符串池的字典的变量名 interned = PyDict_New()，为了让 intern 机制中的字符串不被回收，设置字典时 PyDict_SetDefault(interned, s, s); 将字符串作为键同时也作为值进行设置，这样对于字符串对象的引用计数就会进行两次 +1 操作，这样存于字典中的对象在程序结束前永远不会为 0，这也是 y_REFCNT(s) -= 2; 将计数减 2 的原因。

从函数参数中可以看到其实字符串对象还是被创建了，内部其实始终会为字符串创建对象，但经过 inter 机制检查后，临时创建的字符串会因引用计数为 0 而被销毁，临时变量在内存中昙花一现然后迅速消失。

字符串缓冲池

除了字符串驻留池，Python 还会保存所有 ascii 码内的单个字符：

static PyObject *unicode_latin1[256] = {NULL};

如果字符串其实是一个字符，那么优先从缓冲池中获取：

[unicodeobjec.c]
PyObject * PyUnicode_DecodeUTF8Stateful(const char *s,
               Py_ssize_t size,
               const char *errors,
               Py_ssize_t *consumed)
{
  ...

  /* ASCII is equivalent to the first 128 ordinals in Unicode. */
  if (size == 1 && (unsigned char)s[0] <128) {
    return get_latin1_char((unsigned char)s[0]);
  }
  ...
}

然后再经过 intern 机制后被保存到 intern 池中，这样驻留池中和缓冲池中，两者都是指向同一个字符串对象了。

严格来说，这个单字符缓冲池并不是省内存的方案，因为从中取出的对象几乎都会保存到缓冲池中，这个方案是为了减少字符串对象的创建。

总结

本文介绍了两种是节省内存的方案。一个字符串的每个字符在占用空间大小是相同的，取决于字符串中的最大字符。

短字符串会放到一个全局的字典中，该字典中的字符串成了单例模式，从而节省内存。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持编程笔记。

推荐阅读

java
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43
buffer
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
buffer
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
buffer
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
const
使用 QT 实现 YUV420 图像渲染技术

在使用 Qt 进行 YUV420 图像渲染时，由于 Qt 本身不支持直接绘制 YUV 数据，因此需要借助 QOpenGLWidget 和 OpenGL 技术来实现。通过继承 QOpenGLWidget 类并重写其绘图方法，可以利用 GPU 的高效渲染能力，实现高质量的 YUV420 图像显示。此外，这种方法还能显著提高图像处理的性能和流畅性。 ... [详细]

蜡笔小新 2024-11-09 15:02:41
buffer
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
java
2.2 组件间父子通信机制详解

2.2 组件间父子通信机制详解 ... [详细]

蜡笔小新 2024-11-11 14:58:09
select
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
md5
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
java
Java 类加载器的父子委托机制详解

本文详细解析了Java类加载系统的父子委托机制。在Java程序中，.java源代码文件编译后会生成对应的.class字节码文件，这些字节码文件需要通过类加载器（ClassLoader）进行加载。ClassLoader采用双亲委派模型，确保类的加载过程既高效又安全，避免了类的重复加载和潜在的安全风险。该机制在Java虚拟机中扮演着至关重要的角色，确保了类加载的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 11:29:50
list
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
buffer
深入解析Android 4.4中的Fence机制及其应用

在Android 4.4中，Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中，确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景，本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]

蜡笔小新 2024-11-09 19:30:27
list
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
md5
PHP预处理常量详解：如何定义与使用常量

PHP预处理常量详解：如何定义与使用常量 ... [详细]

蜡笔小新 2024-11-09 11:31:23
buffer
在Linux系统中利用read和write函数实现文件复制操作

在Linux系统中，通过使用`read`和`write`函数可以实现文件的高效复制操作。`open`函数用于打开或创建文件，其返回值为文件描述符，成功时返回一个有效的文件描述符，失败时返回-1。`path`参数指定了要操作的文件路径，而`oflag`参数则定义了文件的打开模式和属性。此外，为了确保数据的完整性和一致性，还需要合理处理文件读取和写入过程中的错误和异常情况。 ... [详细]

蜡笔小新 2024-11-08 12:43:18

手机用户2502922685

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章