Gzip源代码分析（四）

作者：林小秋 | 来源：互联网 | 2023-09-25 19:26

哈弗曼编码首先说明一下涉及到的数据结构：typedefstructct_data{union{ushfreq;*freque

哈弗曼编码

首先说明一下涉及到的数据结构：

typedef struct ct_data {
    union {
        ush  freq;       /* frequency count */
        ush  code;       /* bit string */
    } fc;
    union {
        ush  dad;        /* father node in Huffman tree */
        ush  len;        /* length of bit string */
    } dl;
} ct_data;

（ush是unsigned short int类型）这是一个结构体里面套了两个联合体的数据结构。Gzip用这个ct_data类型定义了五棵树，其实就是数组：dyn_ltree[]，dyn_dtree[]，static_ltree[]，static_dtree[]，bl_tree[]。数组的下标表示待编码节点的值，freq字段表示该节点出现的频率，其余字段暂不介绍。

哈弗曼编码的输入

在gzip中，哈弗曼编码可看作是LZ77的下一级压缩，但哈弗曼编码并不直接处理LZ77输出的第一手材料，而是做了一步映射。

dyn_dtree对应d_buf，其数据的取值范围在0到32K之间，gzip将这32K的范围映射到[0, 29]。因为树数组的下标代表节点的取值，所以dyn_dtree数组的长度可以定为30。要是不做映射，dyn_dtree数组的大小就需要32K之多，而且其中很多节点可能频率为0。

dyn_ltree对应l_buf。l_buf中literal和length是混杂的，且两者的取值范围都是0到255，完全重叠在一起，如果直接哈弗曼编码，解压时，除非参照flag_buf，否则无法区分。之前第二篇计算最小匹配长度时，曾假设（距离-长度）二元组在上下文中能自说明，不需要额外的描述符(如flag_buf）。为了让假设成真，gzip将length映射到[257, 285]这29个节点（用256表示block结束），所以解压时，值大于256的是length，小于256的是literal。所以，dyn_ltree数组需要285的大小存放literal和length节点。

那么这个映射是怎么做的呢？这样多对一的映射，解压时又该怎么还原呢？

映射的方法就是将原数值的后几位比特（称为extra bit）截断，这样就映射到了比较小的值了。解压时，先解码映射后的小数值，被截断的比特紧随其后，直接拷贝就行了，具体要拷贝多少比特视小数值而定：

int extra_dbits[30] /* extra bits for each distance code */
   = {0,0,0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10,11,11,12,12,13,13};

这是距离extra bit长度的定义；

int extra_lbits[29] /* extra bits for each length code */
   = {0,0,0,0,0,0,0,0,1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5,0};

这是长度extra bit长度的定义。

推荐阅读

join
Skynet 源码解析：启动流程与核心组件

本文详细解析 Skynet 的启动流程，包括配置文件的读取、环境变量的设置、主要线程的启动（如 timer、socket、monitor 和 worker 线程），以及消息队列的实现机制。 ... [详细]

蜡笔小新 2024-11-25 16:23:05
python
寻找子树中值小于自身节点的最大数量

本文介绍了一种算法，用于在一个给定的二叉树中找到一个节点，该节点的子树包含最大数量的值小于该节点的节点。如果存在多个符合条件的节点，可以选择任意一个。 ... [详细]

蜡笔小新 2024-11-27 18:08:54
runtime
深入探讨Golang中的String数据结构与特性

本文详细介绍了Golang中string类型的内部结构及其特性，包括字符串的定义、表示方式、数据结构以及相关的操作方法，如字符串拼接和类型转换等。 ... [详细]

蜡笔小新 2024-11-25 13:46:23
main
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
main
树剖||树链剖分||线段树||BZOJ4034||Luogu3178||[HAOI2015]树上操作

题面：P3178[HAOI2015]树上操作好像其他人都嫌这道题太容易了懒得讲，好吧那我讲。题解：第一个操作和第二个操作本质上是一样的&# ... [详细]

蜡笔小新 2024-11-24 15:06:53
ip
GRUB引导问题：简单内核无法启动

正在学习操作系统开发，遇到一个内核在GRUB Legacy（0.97）中无法成功引导的问题。具体表现为输入内核命令后显示错误信息，尝试引导时GRUB挂起。 ... [详细]

蜡笔小新 2024-11-28 18:30:15
main
利用伸展树高效处理区间操作

本文探讨了如何利用伸展树（Splay Tree）来高效地处理区间操作，包括区间修改、查询和删除等。通过引入size域，伸展树能够灵活应对序列结构的变化。 ... [详细]

蜡笔小新 2024-11-28 12:56:05
python
Mac环境下Python与MySQL交互指南

本文详细介绍了在Mac操作系统中使用Python连接MySQL数据库的方法，包括常见的错误处理及解决方案。 ... [详细]

蜡笔小新 2024-11-26 17:41:41
main
二进制数组构建与遍历二叉树

本文探讨了如何利用数组来构建二叉树，并介绍了通过队列实现的二叉树层次遍历方法。通过具体的C++代码示例，详细说明了构建及打印二叉树的过程。 ... [详细]

蜡笔小新 2024-11-25 19:31:10
list
深入解析mt_allocator内存分配器（二）：多线程与单线程场景下的实现

本文详细介绍了mt_allocator内存分配器在多线程和单线程环境下的实现机制。该分配器以2的幂次方字节为单位分配内存，支持灵活的配置和高效的性能。文章分为内存池特性描述、内存池实现、单线程内存池实现、内存池策略类实现及多线程内存池实现等部分，深入探讨了内存池的初始化、内存分配与回收的具体实现。 ... [详细]

蜡笔小新 2024-11-25 17:44:11
uri
DropBlock：一种卷积网络的正则化技术

本文详细探讨了DropBlock这一正则化方法在卷积神经网络中的应用与效果。通过结构化的dropout方式，即在特征图中连续区域内的单元同时被丢弃，DropBlock有效解决了传统dropout在卷积层应用时效果不佳的问题。更多理论分析及其实现细节可参考原文链接。 ... [详细]

蜡笔小新 2024-11-28 11:54:39
jsp
最新CUUG OCP 071考试题库更新 - 12c版本（共70题）

本文提供最新的CUUG OCP 071考试题库，包含70道题目，旨在帮助考生更好地准备Oracle Certified Professional (OCP) 考试。 ... [详细]

蜡笔小新 2024-11-27 20:01:37
uri
CNN模型压缩——使用网络稀疏化方法（Learning Effcient Convolutional Network through Network Sliming）

文章目录IntroductionRelatedWork网络稀疏化（NetworkSlimming）whychoosechennel-levelspars ... [详细]

蜡笔小新 2024-11-25 12:18:05
instance
Java代码保护与混淆：ProGuard详解

在Java开发中，保护代码安全是一个重要的课题。由于Java字节码容易被反编译，因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆，以及其基本原理和常见问题。 ... [详细]

蜡笔小新 2024-11-18 16:46:17
ip
Kubernetes 1.9.0 Alpha.1 发布公告 [Kubernetes 最新动态]

近日，Kubernetes 社区发布了两个新版本：1.8.0 RC.1 和 1.9.0 Alpha.1。这是 k8s 1.9.0 的首次发布，自 v1.8.0 Alpha.3 以来进行了大量更新，共提交了 279 次。 ... [详细]

蜡笔小新 2024-11-17 19:22:13

林小秋

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章