统计自然语言处理----数学基础（二）

作者：姚若薇_453 | 来源：互联网 | 2023-07-30 21:57

前言在上一部分我们介绍了概率论的基础，本节我们介绍一些信息论里面需要了解的基本概念。信息论基础熵（entropy）香农（ClaudeElwoodShannon）于19

前言

　　在上一部分我们介绍了概率论的基础，本节我们介绍一些信息论里面需要了解的基本概念。
　　

信息论基础

熵（entropy）

　　香农（Claude Elwood Shannon）于1940年获得麻省理工学院数学博士学位和电子工程硕士学位后，于1941年加入了贝尔实验室数学部，并在那里工作了15年。1948年6月和10月，由贝尔实验室出版的《贝尔系统技术》杂志连载了香农博士的文章《通讯的数学原理》，该文奠定了香农信息论的基础。熵是信息论中重要的基本概念。
　　如果X 是一个离散型随机变量，其概率分布为：p(x) = P(X = x)，。X 的熵H(X) 为：
　　这里写图片描述
　　其中，约定0log 0 = 0。H(X) 可以写为H(p)。通常熵的单位为二进制位（bits）。
　　熵又称为自信息（self-information），表示信源X每发一个符号（不论发什么符号）所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大，它的不确定性越大，那么，正确的估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。
这里写图片描述

说明：考虑了英文字母和空格实际出现的概率后，英文信源的平均不确定性，比把字母和空格看作等概率出现时英文信源的平均不确定性要小。

联合熵（joint entropy）

　　如果Ｘ，Ｙ是一对离散型随机变量Ｘ，Ｙ～Ｐ（ｘ，ｙ），Ｘ，Ｙ的联合熵H(X,Y)为:
　　这里写图片描述
　　联合熵实际上就是描述一对随机变量平均所需的信息量。

条件熵（conditional entropy）

给定随机变量X的情况下，随机变量Y的条件熵定义为：
这里写图片描述

　互信息（matual information）

如果( X, Y ) ~ p(x, y)，X, Y 之间的互信息I(X; Y) 为：I (X; Y) = H(X) –H( X | Y )。
根据定义，展开H(X) 和H(X|Y) 容易得到：
这里写图片描述
互信息I (X; Y) 是在知道了Y 的值后X 的不确定性的减少量。即，Y 的值透露了多少关于X 的信息量。

由于H(X, X) = 0, 所以，H(X) = H(X) –H(X|X) = I(X; X)。这一方面说明了为什么熵又称自信息，另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量，而是取决于它们的熵。

交叉熵

如果一个随机变量X ~ p (x)，q(x)为用于近似p(x)的概率分布，那么随机变量X和模型q之间的交叉熵定义为：
这里写图片描述
交叉熵的概念是用来衡量估计模型与真实概率分布之间差异情况的。对于语言L = (Xi) ~ p(x) 与其模型q的交叉熵定义为：

其中，为语言L的语句，为L中语句的概率，为模型q对的概率估计。
　我们可以假设这种语言是“理想的”，即n趋于无穷大的时候，其全部“单词”的概率和为1。也就是说，根据信息论的定理：假定语言L是稳态的（stataionary）ergodic随机过程，L与其模型q的交叉熵计算公式就变为：
　这里写图片描述
　由此，我们可以根据模型q和一个含有大量数据的L的样本来计算交叉熵。在设计模型q时，我们的目的是使交叉熵最小，从而使模型最接近真实的概率分布p(x)。

困惑度（preplexity）

　　在设计语言模型的时候，我们通常用困惑度来代替交叉熵衡量语言模型的好坏。给定语言Ｌ的样本,L的困惑度定义为：
　　这里写图片描述
　　语言模型设计的任务就是寻找困惑度最小的模型，使其最接近真实的语言。

噪声信道模型（noisy cahnnel model）

　　在信号传输的过程中都要进行双重性处理：一方面要通过压缩消除所有的冗余，另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好的恢复原状。这样的话，信息编码时要尽量占有少量的空间，但又必须保持足够的冗余以便能够检测和校验错误。而接收到的信号需要被解码使其尽量恢复到原始的输入信号。
　　噪声信道模型的目标就是优化噪声信道中信号传输的吞吐量和准确率，其基本假设是一个信道的输出以一定的概率依赖于输入。
　　这里写图片描述

例如：一个二进制的对称信道(binary symmetric channel, BSC)的输入符号集X:{0, 1}，输出符号集Y:{0, 1}。在传输过程中如果输入符号被误传的概率为p，那么，被正确传输的概率就是1－p。这个过程我们可以用一个对称的图型表示如下：
这里写图片描述
信息论中很重要的一个概念就是信道容量（capacity），其基本思想是用降低传输速率来换取高保真通讯的可能性。其定义可以根据互信息给出：

根据这个定义，如果我们能够设计一个输入编码X，其概率分布为p(X)，使其输入与输出之间的互信息达到最大值，那么，我们的设计就达到了信道的最大传输容量。在自然语言处理中，我们不需要进行编码，只需要进行解码，使系统的输出更接近于输入。
这里写图片描述

也就是说，如果我们要建立一个源语言f 到目标语言e的统计翻译系统，我们必须解决三个关键的问题：

（1）估计语言模型概率P(e)；
（2）估计翻译概率P(f | e)；
（3）设计有效快速的搜索算法求解 eˆ使得P(e)×P(f | e)最大。

推荐阅读

go
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
format
点互信息在自然语言处理中的应用与优化

点互信息（Pointwise Mutual Information, PMI）是一种用于评估两个事件之间关联强度的统计量，在自然语言处理领域具有广泛应用。本文探讨了 PMI 在词共现分析、语义关系提取和情感分析等任务中的具体应用，并提出了几种优化方法，以提高其在大规模数据集上的计算效率和准确性。通过实验验证，这些优化策略显著提升了模型的性能。 ... [详细]

蜡笔小新 2024-11-02 16:01:23
format
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
python
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
go
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
split
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
format
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
go
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
go
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
fetch
掌握MySQL数据库的基础语法与核心操作

本文详细介绍了MySQL数据库的基础语法与核心操作，涵盖从基础概念到具体应用的多个方面。首先，文章从基础知识入手，逐步深入到创建和修改数据表的操作。接着，详细讲解了如何进行数据的插入、更新与删除。在查询部分，不仅介绍了DISTINCT和LIMIT的使用方法，还探讨了排序、过滤和通配符的应用。此外，文章还涵盖了计算字段以及多种函数的使用，包括文本处理、日期和时间处理及数值处理等。通过这些内容，读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]

蜡笔小新 2024-11-11 23:39:51
go
Understanding the Suspects: An Introduction to Disjoint Set Union (Union-Find Algorithm)

本文介绍了并查集（Union-Find算法）的基本概念及其应用。通过一个具体的例子，解释了如何使用该算法来处理涉及多个集合的问题。题目要求输入两个整数 n 和 m，分别表示总人数和操作次数。算法通过高效的合并与查找操作，能够快速确定各个元素所属的集合，适用于大规模数据的动态管理。 ... [详细]

蜡笔小新 2024-11-11 19:04:25
format
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
format
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
format
18. ChartData类详解（MPAndroidChart中文版解析）

在《ChartData类详解》一文中，我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色（Setting Colors）以及如何格式化数据值（Formatting Data Values），通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外，我们还将介绍一些高级配置选项，帮助开发者更好地定制和优化图表展示效果。 ... [详细]

蜡笔小新 2024-11-09 20:54:36
format
探索高效算法：寻找所有和为N的组合方案

本文探讨了一种高效的算法，用于生成所有数字（0-9）的六位组合，允许重复使用数字，并确保这些组合的和等于给定的整数N。该算法通过优化搜索策略，显著提高了计算效率，适用于大规模数据处理和组合优化问题。 ... [详细]

蜡笔小新 2024-11-08 09:58:47