当前位置: 开发笔记 > 人工智能 > 正文

七、熵编码算法（1）：基础知识

作者：左边我们画圈圈 | 来源：互联网 | 2023-02-11 12:18

一、熵编码的概念熵化学和热力学，用于度量能量退化的指标熵越高，物体或系统的做功能力越低信息学中的熵表示信源所发出信息的不确定性越是随机的、前后不相关的

一、熵编码的概念

熵
- 化学和热力学，用于度量能量退化的指标
- 熵越高，物体或系统的做功能力越低
信息学中的熵
- 表示信源所发出信息的不确定性
- 越是随机的、前后不相关的信息，其熵越高
信源编码定理
- 说明了香农熵与信源符号概率之间的关系
- 信息的熵为信源无损编码后的平均码字长度的下限
- 任何的无损编码方法都不可能使编码后的平均码长小于香农熵，只能使其尽量接近

在这里插入图片描述
　　前面的表述球之间的关系相对于后面这个是比较繁琐的，而且由于前面的排列之间没有任何的规律，进行改进和压缩的空间也就比较小了；因此：混乱程度高的信源，所表达的信息更难被压缩，熵也更高

基本思想
- 使其前后的码字之间尽量更加随机，尽量减小前后的相关性，更加接近其信源的香农熵
常用熵编码算法
- 变长编码：运算复杂度和编码效率都比较低，常用方法：哈夫曼编码、香农-费诺编码等；
- 算术编码：运算较复杂，但编码效率更高

二、熵编码的简单实现——哈夫曼编码

哈夫曼编码
- 变长编码方法的一种，依赖于码字出现的概率来构造整体平均长度最短的编码方法
- 关键步骤：建立符合哈夫曼编码规则的二叉树，该树又称作哈夫曼树
哈夫曼树：
- 一种特殊的二叉树，其终端节点的个数与待编码的码元的个数等同，而且每个终端节点上都带有各自的权值
- 每个终端节点的路径长度乘以该节点的权值的总和称为整个二叉树的加权路径长度。在满足条件的各种二叉树中，该路径长度最短的二叉树即为哈夫曼树。

在使用哈夫曼编码执行对码元的实际编码过程时，码元的权值可设置为其概率值，那么可以根据其权值来构建哈夫曼树。我们假设使用哈夫曼编码对以下概率的码字进行编码：

码字概率
A 0.1
B 0.1
C 0.15
D 0.2
E 0.2
F 0.25

根据概率表构建哈夫曼树的过程如下图所示：
在这里插入图片描述
最终我们可以得到如下图所示的哈夫曼树：

　　在哈夫曼树构建完成后，便可以得到每一个码元的哈夫曼编码的码字。具体方法是：从哈夫曼树的根节点开始遍历，直至每一个终端节点，当访问某个节点的左子树时赋予码字0，访问右子树时赋予一个码字1（反之亦可），直到遍历到终端节点时这一路径所代表的0和1的串便是该码元的哈夫曼编码码字。
　　例如上图的哈夫曼树，根节点访问左子树ABCF，赋予码字0；然后再访问左子树ABC，赋予码字0，此时整个码字为00，然后访问右子树得到终端节点C，赋予码字1，此时便可以得到C的哈夫曼编码码字001。以此规律，整个六个元素的码元集合的编码码表为：

A: 0000
B: 0001
C: 001
D: 10
E: 11
F: 01
　　从这个码表中还可以看出另外一个规律：哈夫曼编码的任意一个码字，都不可能是其他码字的前缀。因此通过哈夫曼编码的信息可以紧密排列连续传输，而不用担心解码时的歧义性。

推荐阅读

算法
深度学习理论解析与理解

梯度方向指示函数值增加的方向，由各轴方向的偏导数综合而成，其模长表示函数值变化的速率。本文详细探讨了导数、偏导数、梯度等概念，并结合Softmax函数、卷积神经网络（CNN）中的卷积计算、权值共享及池化操作进行了深入分析。 ... [详细]

蜡笔小新 2024-12-26 18:23:11
算法
帝国CMS多图上传插件详解及使用指南

本文介绍了一款用于帝国CMS的多图上传插件，该插件通过Flash技术实现批量图片上传功能，显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]

蜡笔小新 2024-12-26 13:30:01
算法
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
算法
网易严选Java开发面试：MySQL索引深度解析

本文详细记录了网易严选Java开发岗位的面试经验，特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文，读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]

蜡笔小新 2024-12-24 19:50:16
算法
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
算法
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
算法
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
算法
Win11扩展卷无法使用？解决扩展卷灰色问题的指南

本文详细介绍了在Windows 11中遇到扩展卷灰色无法使用时的解决方案，帮助用户快速恢复磁盘扩展功能。 ... [详细]

蜡笔小新 2024-12-26 10:10:17
算法
POJ 1691 矩形涂色问题 (DFS/状态压缩DP)

本题通过将每个矩形视为一个节点，根据其相对位置构建拓扑图，并利用深度优先搜索（DFS）或状态压缩动态规划（DP）求解最小涂色次数。本文详细解析了该问题的建模思路与算法实现。 ... [详细]

蜡笔小新 2024-12-25 18:27:21
算法
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
ocr
脑机接口：连接未来的桥梁

脑机接口（BCI）技术正逐步将科幻变为现实，从帮助听障人士恢复听力到使瘫痪者重新站立，甚至可能将多年的学习过程压缩至瞬间。本文探讨了这一前沿技术的现状、挑战及其未来前景。 ... [详细]

蜡笔小新 2024-12-24 23:49:49
ocr
提升iPhone效率的12个隐藏技巧，你用过几个？

探索12个能显著提升iPhone使用体验的隐藏技巧，掌握这些功能后，你会发现生活更加便捷高效。 ... [详细]

蜡笔小新 2024-12-24 21:10:03
深度
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11
深度
Redis 持久化机制详解：RDB与AOF的原理、优缺点及选择策略

本文深入探讨了 Redis 的两种持久化方式——RDB 快照和 AOF 日志。详细介绍了它们的工作原理、配置方法以及各自的优缺点，帮助读者根据具体需求选择合适的持久化方案。 ... [详细]

蜡笔小新 2024-12-24 18:03:44
深度
企业级项目中 Webpack 配置优化指南

本文详细介绍了在企业级项目中如何优化 Webpack 配置，特别是在 React 移动端项目中的最佳实践。涵盖资源压缩、代码分割、构建范围缩小、缓存机制以及性能优化等多个方面。 ... [详细]

蜡笔小新 2024-12-24 14:41:48

左边我们画圈圈

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章