PHP内核介绍及扩展开发指南—基础知识

作者：我女神不能F哭不能输丶 | 来源：互联网 | 2013-04-22 17:18

一、基础知识本章简要介绍一些Zend引擎的内部机制，这些知识和Extensions密切相关，同时也可以帮助我们写出更加高效的PHP代码。1.1PHP变量的存储1.1.1zval结构Zend使用zval结构来存储PHP变量的值，该结构如下所示：typedefunion_zvalue_value{long

　　一、基础知识

　　本章简要介绍一些Zend引擎的内部机制，这些知识和Extensions密切相关，同时也可以帮助我们写出更加高效的PHP代码。

　　1.1 PHP变量的存储

　　1.1.1 zval结构

　　Zend使用zval结构来存储PHP变量的值，该结构如下所示：

typedef union _zvalue_value { 
    long lval;              /* long value */ 
    double dval;                /* double value */ 
    struct { 
        char *val; 
        int len; 
    } str; 
    HashTable *ht;              /* hash table value */ 
    zend_object_value obj; 
} zvalue_value; 
 
struct _zval_struct { 
    /* Variable information */ 
    zvalue_value value;     /* value */ 
    zend_uint refcount; 
    zend_uchar type;            /* active type */ 
    zend_uchar is_ref; 
}; 
 
typedef struct _zval_struct zval; 
"more-597">Zend根据type值来决定访问value的哪个成员，可用值如下：

　　IS_NULLN/A

　　IS_LONG对应value.lval

　　IS_DOUBLE对应value.dval

　　IS_STRING对应value.str

　　IS_ARRAY对应value.ht

　　IS_OBJECT对应value.obj

　　IS_BOOL对应value.lval.

　　IS_RESOURCE对应value.lval

　　根据这个表格可以发现两个有意思的地方：首先是PHP的数组其实就是一个HashTable，这就解释了为什么PHP能够支持关联数组了;其次，Resource就是一个long值，它里面存放的通常是个指针、一个内部数组的index或者其它什么只有创建者自己才知道的东西，可以将其视作一个handle

　　1.1.1 引用计数

　　引用计数在垃圾收集、内存池以及字符串等地方应用广泛，Zend就实现了典型的引用计数。多个PHP变量可以通过引用计数机制来共享同一份zval，zval中剩余的两个成员is_ref和refcount就用来支持这种共享。

　　很明显，refcount用于计数，当增减引用时，这个值也相应的递增和递减，一旦减到零，Zend就会回收该zval。

　　那么is_ref呢?

　　1.1.2 zval状态

　　在PHP中，变量有两种——引用和非引用的，它们在Zend中都是采用引用计数的方式存储的。对于非引用型变量，要求变量间互不相干，修改一个变量时，不能影响到其他变量，采用Copy-On-Write机制即可解决这种冲突——当试图写入一个变量时，Zend若发现该变量指向的zval被多个变量共享，则为其复制一份refcount为1的zval，并递减原zval的refcount，这个过程称为“zval分离”。然而，对于引用型变量，其要求和非引用型相反，引用赋值的变量间必须是捆绑的，修改一个变量就修改了所有捆绑变量。

　　可见，有必要指出当前zval的状态，以分别应对这两种情况，is_ref就是这个目的，它指出了当前所有指向该zval的变量是否是采用引用赋值的——要么全是引用，要么全不是。此时再修改一个变量，只有当发现其zval的is_ref为0，即非引用时，Zend才会执行Copy-On-Write。

　　1.1.3 zval状态切换

　　当在一个zval上进行的所有赋值操作都是引用或者都是非引用时，一个is_ref就足够应付了。然而，世界总不会那么美好，PHP无法对用户进行这种限制，当我们混合使用引用和非引用赋值时，就必须要进行特别处理了。

　　情况I、看如下PHP代码：

　　全过程如下所示：

　　这段代码的前三句将把a、b和c指向一个zval，其is_ref=1, refcount=3;第四句是个非引用赋值，通常情况下只需要增加引用计数即可，然而目标zval属于引用变量，单纯的增加引用计数显然是错误的， Zend的解决办法是为d单独生成一份zval副本。

　　全过程如下所示：

　　1.1.1 参数传递

　　PHP函数参数的传递和变量赋值是一样的，非引用传递相当于非引用赋值，引用传递相当于引用赋值，并且也有可能会导致执行zval状态切换。这在后面还将提到。

　　1.2 HashTable结构

　　HashTable是Zend引擎中最重要、使用最广泛的数据结构，它被用来存储几乎所有的东西。

　　1.1.1 数据结构

　　HashTable数据结构定义如下：

typedef struct bucket { 
    ulong h;                // 存放hash 
    uint nKeyLength; 
    void *pData;            // 指向value，是用户数据的副本 
    void *pDataPtr; 
    struct bucket *pListNext;   // pListNext和pListLast组成 
    struct bucket *pListLast;   // 整个HashTable的双链表 
    struct bucket *pNext;       // pNext和pLast用于组成某个hash对应 
    struct bucket *pLast;       // 的双链表 
    char arKey[1];              // key 
} Bucket; 
 
typedef struct _hashtable { 
    uint nTableSize; 
    uint nTableMask; 
    uint nNumOfElements; 
    ulong nNextFreeElement; 
    Bucket *pInternalPointer;   /* Used for element traversal */ 
    Bucket *pListHead; 
    Bucket *pListTail; 
    Bucket **arBuckets;         // hash数组 
    dtor_func_t pDestructor;    // HashTable初始化时指定，销毁Bucket时调用 
    zend_bool persistent;       // 是否采用C的内存分配例程 
    unsigned char nApplyCount; 
    zend_bool bApplyProtection; 
#if ZEND_DEBUG 
    int inconsistent; 
#endif 
} HashTable;

　　总的来说，Zend的HashTable是一种链表散列，同时也为线性遍历进行了优化，图示如下：

　　HashTable中包含两种数据结构，一个链表散列和一个双向链表，前者用于进行快速键-值查询，后者方便线性遍历和排序，一个Bucket同时存在于这两个数据结构中。

　　关于该数据结构的几点解释：

　　l 链表散列中为什么使用双向链表?

　　一般的链表散列只需要按key进行操作，只需要单链表就够了。但是，Zend有时需要从链表散列中删除给定的Bucket，使用双链表可以非常高效的实现。

　　l nTableMask是干什么的?

　　这个值用于hash值到arBuckets数组下标的转换。当初始化一个HashTable，Zend首先为arBuckets数组分配nTableSize大小的内存，nTableSize取不小于用户指定大小的最小的2^n，即二进制的10*。nTableMask = nTableSize – 1，即二进制的01*，此时h & nTableMask就恰好落在 [0, nTableSize – 1] 里，Zend就以其为index来访问arBuckets数组。

　　l pDataPtr是干什么的?

　　通常情况下，当用户插入一个键值对时，Zend会将value复制一份，并将pData指向value副本。复制操作需要调用Zend内部例程 emalloc来分配内存，这是个非常耗时的操作，并且会消耗比value大的一块内存(多出的内存用于存放COOKIE)，如果value很小的话，将会造成较大的浪费。考虑到HashTable多用于存放指针值，于是Zend引入pDataPtr，当value小到和指针一样长时，Zend就直接将其复制到pDataPtr里，并且将pData指向pDataPtr。这就避免了emalloc操作，同时也有利于提高Cache命中率。

　　arKey大小为什么只有1?为什么不使用指针管理key?

　　arKey是存放key的数组，但其大小却只有1，并不足以放下key。在HashTable的初始化函数里可以找到如下代码：

　　1p = (Bucket *) pemalloc(sizeof(Bucket) - 1 + nKeyLength, ht->persistent);

　　可见，Zend为一个Bucket分配了一块足够放下自己和key的内存，

　　l 上半部分是Bucket，下半部分是key，而arKey“恰好”是Bucket的最后一个元素，于是就可以使用arKey来访问key了。这种手法在内存管理例程中最为常见，当分配内存时，实际上是分配了比指定大小要大的内存，多出的上半部分通常被称为COOKIE，它存储了这块内存的信息，比如块大小、上一块指针、下一块指针等，baidu的Transmit程序就使用了这种方法。

　　不用指针管理key，是为了减少一次emalloc操作，同时也可以提高Cache命中率。另一个必需的理由是，key绝大部分情况下是固定不变的，不会因为key变长了而导致重新分配整个Bucket。这同时也解释了为什么不把value也一起作为数组分配了——因为value是可变的。

　　1.2.2 PHP数组

　　关于HashTable还有一个疑问没有回答，就是nNextFreeElement是干什么的?

　　不同于一般的散列，Zend的HashTable允许用户直接指定hash值，而忽略key，甚至可以不指定key(此时，nKeyLength为0)。同时，HashTable也支持append操作，用户连hash值也不用指定，只需要提供value，此时，Zend就用nNextFreeElement作为hash，之后将nNextFreeElement递增。

　　HashTable的这种行为看起来很奇怪，因为这将无法按key访问value，已经完全不是个散列了。理解问题的关键在于，PHP数组就是使用HashTable实现的——关联数组使用正常的k-v映射将元素加入HashTable，其key为用户指定的字符串;非关联数组则直接使用数组下标作为hash值，不存在key;而当在一个数组中混合使用关联和非关联时，或者使用array_push操作时，就需要用nNextFreeElement了。

　　再来看value，PHP数组的value直接使用了zval这个通用结构，pData指向的是zval*，按照上一节的介绍，这个zval*将直接存储在pDataPtr里。由于直接使用了zval，数组的元素可以是任意PHP类型。

　　数组的遍历操作，即foreach、each等，是通过HashTable的双向链表来进行的，pInternalPointer作为游标记录了当前位置。

　　1.2.3 变量符号表

　　除了数组，HashTable还被用来存储许多其他数据，比如，PHP函数、变量符号、加载的模块、类成员等。

　　一个变量符号表就相当于一个关联数组，其key是变量名(可见，使用很长的变量名并不是个好主意)，value是zval*。

　　在任一时刻PHP代码都可以看见两个变量符号表——symbol_table和active_symbol_table——前者用于存储全局变量，称为全局符号表;后者是个指针，指向当前活动的变量符号表，通常情况下就是全局符号表。但是，当每次进入一个PHP函数时(此处指的是用户使用PHP代码创建的函数)，Zend都会创建函数局部的变量符号表，并将active_symbol_table指向局部符号表。Zend总是使用active_symbol_table来访问变量，这样就实现了局部变量的作用域控制。

　　但如果在函数局部访问标记为global的变量，Zend会进行特殊处理——在active_symbol_table中创建symbol_table中同名变量的引用，如果symbol_table中没有同名变量则会先创建。

　　1.3 内存和文件

　　程序拥有的资源一般包括内存和文件，对于通常的程序，这些资源是面向进程的，当进程结束后，操作系统或C库会自动回收那些我们没有显式释放的资源。

　　但是，PHP程序有其特殊性，它是基于页面的，一个页面运行时同样也会申请内存或文件这样的资源，然而当页面运行结束后，操作系统或C库也许不会知道需要进行资源回收。比如，我们将php作为模块编译到apache里，并且以prefork或worker模式运行apache。这种情况下apache进程或线程是复用的，php页面分配的内存将永驻内存直到出core。

　　为了解决这种问题，Zend提供了一套内存分配API，它们的作用和C中相应函数一样，不同的是这些函数从Zend自己的内存池中分配内存，并且它们可以实现基于页面的自动回收。在我们的模块中，为页面分配的内存应该使用这些API，而不是C例程，否则Zend会在页面结束时尝试efree掉我们的内存，其结果通常就是crush。

　　emalloc()

　　efree()

　　estrdup()

　　estrndup()

　　ecalloc()

　　erealloc()

　　另外，Zend还提供了一组形如VCWD_xxx的宏用于替代C库和操作系统相应的文件API，这些宏能够支持PHP的虚拟工作目录，在模块代码中应该总是使用它们。宏的具体定义参见PHP源代码”TSRM/tsrm_virtual_cwd.h”。可能你会注意到，所有那些宏中并没有提供close操作，这是因为close的对象是已打开的资源，不涉及到文件路径，因此可以直接使用C或操作系统例程;同理，read/write之类的操作也是直接使用C或操作系统的例程。

php
apache

推荐阅读

case
如何利用Apache与Nginx高效实现动静态内容分离

如何利用Apache与Nginx高效实现动静态内容分离 ... [详细]

蜡笔小新 2024-10-29 21:47:55
java
初探ActiveMQ：消息队列技术入门指南

ActiveMQ是由Apache开发的一款广受欢迎且功能强大的开源消息中间件。作为完全符合JMS 1.1和J2EE 1.4规范的JMS Provider实现，尽管JMS规范已问世多年，但ActiveMQ依然保持了其在消息队列领域的领先地位。本文将带你初步了解ActiveMQ的核心概念及其应用场景，帮助你快速入门这一重要的消息传递技术。 ... [详细]

蜡笔小新 2024-10-29 13:32:49
web
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
web
构建顶级PHP博客系统：实践与洞见

构建顶级PHP博客系统不仅需要扎实的技术基础，还需深入理解实际应用需求。本文以Zend Studio为开发环境，MySQL作为数据存储，Apache服务器为运行平台，结合jQuery脚本语言，详细阐述了从环境搭建到功能实现的全过程，分享了开发PHP博客管理系统的宝贵经验和实用技巧。 ... [详细]

蜡笔小新 2024-10-28 16:49:55
web
Linux学习精华：程序管理、终端种类与命令帮助获取方法综述

Linux学习精华：程序管理、终端种类与命令帮助获取方法综述 ... [详细]

蜡笔小新 2024-10-28 13:45:59
java
Norton Partition Magic 中 PHP 函数 error_reporting(E_ALL ^ E_NOTICE) 的详细解析与应用

在 Windows 环境下，通过具体示例分析了 `Norton Partition Magic` 中 `PHP` 函数 `error_reporting(E_ALL ^ E_NOTICE)` 的详细解析与应用。该函数用于控制错误报告级别，例如在从 PHP 4.3.0 升级到 4.3.1 后，程序出现多处错误的原因及解决方法。本文深入探讨了错误报告配置对程序稳定性的影响，并提供了实用的调试技巧。 ... [详细]

蜡笔小新 2024-11-01 20:40:18
version
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
java
深入解析IO复用技术及其在C10K问题中的应用

本文深入探讨了IO复用技术的原理与实现，重点分析了其在解决C10K问题中的关键作用。IO复用技术允许单个进程同时管理多个IO对象，如文件、套接字和管道等，通过系统调用如`select`、`poll`和`epoll`，高效地处理大量并发连接。文章详细介绍了这些技术的工作机制，并结合实际案例，展示了它们在高并发场景下的应用效果。 ... [详细]

蜡笔小新 2024-10-29 18:24:19
java
如何正确配置与使用日志组件：Log4j、SLF4J及Logback的连接与整合方法

在当前的软件开发实践中，无论是开源项目还是日常工作中，日志框架都是不可或缺的工具之一。本文详细探讨了如何正确配置与使用Log4j、SLF4J及Logback这三个流行的日志组件，并深入解析了它们之间的连接与整合方法，旨在帮助开发者高效地管理和优化日志记录流程。 ... [详细]

蜡笔小新 2024-10-29 18:06:59
version
解决sbt构建过程中遇到的“对象apache非org软件包”错误

在使用sbt构建项目时，遇到了“对象apache不是org软件包的成员”的错误。本文详细分析了该问题的原因，并提供了有效的解决方案，包括检查依赖配置、清理缓存和更新sbt插件等步骤，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-10-29 16:21:59
web
深入解析Wget CVE-2016-4971漏洞的利用方法与安全防范措施

### 摘要Wget 是一个广泛使用的命令行工具，用于从 Web 服务器下载文件。CVE-2016-4971 漏洞涉及 Wget 在处理特定 HTTP 响应头时的缺陷，可能导致远程代码执行。本文详细分析了该漏洞的成因、利用方法以及相应的安全防范措施，包括更新 Wget 版本、配置防火墙规则和使用安全的 HTTP 头。通过这些措施，可以有效防止潜在的安全威胁。 ... [详细]

蜡笔小新 2024-10-29 14:04:47
java
深入解析 javax.faces.view.ViewDeclarationLanguageWrapper.getWrapped() 方法及其应用实例

深入解析 javax.faces.view.ViewDeclarationLanguageWrapper.getWrapped() 方法及其应用实例 ... [详细]

蜡笔小新 2024-10-28 19:20:47
version
在Spring 4.x中实现HTTP请求返回JSON数据流

随着越来越多的应用程序采用JSON格式作为响应数据，基于Spring Framework构建的服务端应用也广泛采用了这一实践。本文将详细介绍如何在Spring 4.x版本的MVC框架中配置和实现HTTP请求返回JSON数据流，涵盖相关配置、依赖管理和代码示例，帮助开发者高效地实现这一功能。 ... [详细]

蜡笔小新 2024-10-28 12:09:21
web
如何在Linux系统中实施网络流量监测与分析

本文详细介绍了在Linux系统中实施网络流量监测与分析的方法。通过使用专业的工具和技术，读者可以有效地监控和分析网络流量，从而提高系统的安全性和性能。希望本文能为读者提供有价值的参考和实践指导。 ... [详细]

蜡笔小新 2024-10-28 11:22:49
java
Android平台生活辅助应用的设计与开发实现

随着移动互联网技术的迅猛发展，Android操作系统已成为移动设备中的主流平台。本文探讨了基于Android平台的生活辅助应用设计与开发，旨在通过创新的功能和用户友好的界面，提升用户的日常生活质量。研究不仅涵盖了应用的核心功能实现，还深入分析了用户体验优化的方法，为同类应用的开发提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-28 10:54:23

我女神不能F哭不能输丶

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章