DeepLearning（深度学习)学习笔记（四）

作者：开口就笑i | 来源：互联网 | 2023-09-16 11:18

神经概率语言模型，内容分为三块：问题，模型与准则，实验结果。[此节内容未完待续]1，语言模型问题语言模型问题就是给定一个语言词典包括v个单词，对一个字串做出

神经概率语言模型，内容分为三块：问题，模型与准则，实验结果。[此节内容未完待续...]

1，语言模型问题

语言模型问题就是给定一个语言词典 $D=\{ w^{1},w^{2}, ...,w^{n}\}$ 包括v个单词，对一个字串 $W^{t}_{1}=w_{1}w{2}...w_{t}$ 做出二元推断，推断其是否符合该语言表达习惯。也就是 $Pr(W_{1}^{t})$ 的取值为0或者为1。

概率语言模型放松了对 $Pr(W_{1}^{t})$ 取值的限制，让其在0~1之间取值（语言模型 v.s 概率语言模型），而且全部的字串的概率之和为1。维基百科对于概率语言模型的解释为：是借由一个概率分布，而指派概率给字词所组成的字串。可是须要注意的是直接对 $Pr(W_{1}^{t})$ 进行求其概率分布是不现实的，由于理论上这样的字串数量是无限的。直接求其概率分布会导致维度灾难。

为了解决这个问题，首先引入链式法则（chain rule），觉得字串中第i个字符出现的概率是由其前面i-1个字符决定的。这样就有例如以下公式：

$Pr(W_{1}^{t})=\sum_{i=1}^{t}Pr(w_{i}|w_{1}w_{2}...w_{i-1})$

可是，有了这个公式还是太复杂了。继续引入如果简化公式，觉得字串中第i个字符出现的概率是由其前面n-1个字符决定(也就是如果 $Pr(w_{i}|w_{1}...w_{i-1})=Pr(w_{i}|w_{i-n+1}...w_{i-1})$ )的。这样公式就继续被简化：

$Pr(W_{1}^{t})=\sum_{i=1}^{t}Pr(w_{i}|w_{i-n+1}...w_{i-1})$

模型如今就变得非常easy了，就是计算条件概率 $Pr(w_{i}|w_{i-n+1}...w_{i-1})$ 。也就是须要计算给定字串 $w_{i-n+1}...w_{i-1}$ 后，字典中的每一个字出现的概率 $Pr(w|w_{i-n+1}...w_{i-1})$ 。

2. 模型与准则

2.1 数据给定一些标记号的样本 $\{(w_{t-n+1}^{t-1},w_{t})\},n \leq t \leq T$ .

2.2 模型

图1. 模型图解

图片来自：http://licstar.net/archives/328

建模步骤

2.2.1 查表：将输入的单词 $w_{i}, t-n+1 \leq i \leq t-1$ ,通过查表（图1中Table look-up过程）将单词映射为m维的词向量。此处的所查的表并非给定的，是在模型学习中获得的附加产物(也就是word2vec产生的那些向量玩意)。

2.2.2 线性变换：将2.2.1中的n-1个m维度的向量通过首尾拼接的方式线性变换成为(n-1)*m维的向量。也就是在中间那个tanh层输入处（以下）全部分向量C(w)合并为一个大的维度为(n-1)*m的向量[Mikolov的RNNLM在此做出改变：不只只看n-1个单词的信息，而是看该词前面全部的单词信息]。

2.2.3 非线性变换：在中间那个tanh层处进行非线性变换。这里须要的是一个变换矩阵 $H\in R^{((n-1)*m)*h}$ 和偏置矩阵 $b \in R^{h}$ 。也就是对于中间那一层（tanh所在的那一层），该层的输入是(n-1)*m的向量，输出是。经过线性变换后，先前的(n-1)*m维的向量成为了h维的向量。

2.2.4 输出处理：在最后一层（softmax层）进行处理输出。这里须要一个变换矩阵 $W \in R^{h*v}$ 和一个偏置矩阵 $b \in R^{v}$ 。最后输出就是。注意到最后输出的是一个v维度的向量，和我们的第一节中词典D的维度是一致的。向量中每个维度相应的实数就是输出该单词的概率。

2.3 准则

对全部的训练样本，其准则为使 $-\sum_{t=n}^{T}\log p(w_{t}|w_{t-n+1}...w_{t-1})+ \lambda$ 取最小,此处 $\lambda$ 为正则项。能够使用梯度下降法进行求取。

模型中须要人工设定的參数是模型的元数n，词向量的维度m，隐层的输出维度h。

须要模型优化的參数：变换矩阵W和H，偏置矩阵d和b，查表所使用的词向量表都是须要优化的參数，也就是我们所求取的參数。

3.实验结果

语言模型困惑度 $PPL=$\sqrt[T]{\prod_{i=1}^{T}\frac{1}{p(w_{t}|w_{t-n+1}...w_{t-1})}}$$ 。模型困惑度是用来评价不同的语言模型好坏的一种方法（另一种方法是Word Error Rate，Mikolov的博士论文《Statistical Language Models based on Neural Networks》博士论文对这两种方法有介绍和比較）。给定測试数据集合，模型在该測试集合上的困惑度越小越好。

測试集合一：

Brown Corpus，共计118w单词，当中80w训练，20w验证，其它18w作为測试集合。

在n=5，m=30，h=100时候NNLM的PPL为270。该測试集合眼下最好的n-gram模型（n=3）的PPL为312。设置权重进行模型融合后的PPL为252。

測试集合二：

AP News，共计1600w词，当中1400w训练，100w验证，其它100w作为測试集合。

在n=6，m=100，h=109时候NNLM的PPL为109。该測试集合眼下最好的n-gram模型的PPL为117。

网上学习资料：

关于神经网络语言模型的博客：点击打开链接

Mikolov的博士论文《Statistical Language Models based on Neural Networks》关于n-gram语言模型的评价是简单有用（N-gram models are today still considered as state of the art not because there are no better techniques, but because those better techniques are computationally much more complex, and provide just marginal improvements, not critical for success of given application.），模型的关键就是选择n值和平滑技术。其固有缺点例如以下：

第一，n-gram模型的n值无法取大。由于模型n-gram片段的数量会随着n值的变大指数增长。这一点就决定了n-gram模型无法有效的利用更长的上下文信息。特殊的，当被提供海量训练语料时，n-gram模型也无法有效捕捉一些长距离的语言现象。

第二，即使n值能够取得比較大，n-gram无法有利用长距离的上下文信息。比如，有一个句子The sky above our heads is bleu. 这句话里面单词 bleu对单词sky有着非常强的依赖关系，无论这两个单词中间插入多少变量都不会破坏这样的关系。比如The sky this morning was bleu. 可是对n-gram模型，即使放开n值的限制，取一个较大的n值，也无法有效地捕捉这样的长距离的语言现象。

第三，n-gram模型无法高效的对相似的词语进行辨别。比如：训练语料中存在Party will be on Monday. 和Party will be on Tuesday. 模型无法对类似Party will be on Friday.的句子赋予较高的概率。尽管我们人可以清楚知道“Monday”,"Tuesday","Friday"这些是类似的概念，可是只对字面进行建模的n-gram无法辨别。

推荐阅读

install
Android系统支持的图像格式及其版本兼容性（涵盖存储、HTTP传输、相机功能、SparseArray应用与系统升级）

本文探讨了Android系统中支持的图像格式及其在不同版本中的兼容性问题，重点涵盖了存储、HTTP传输、相机功能以及SparseArray的应用。文章详细分析了从Android 10 (API 29) 到Android 11 的存储规范变化，并讨论了这些变化对图像处理的影响。此外，还介绍了如何通过系统升级和代码优化来解决版本兼容性问题，以确保应用程序在不同Android版本中稳定运行。 ... [详细]

蜡笔小新 2024-11-05 14:02:29
install
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
byte
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
php
PHP微信开发基础教程（第三篇）：详解消息类型处理

在本文中，我们将详细介绍如何构建一个用于自动回复消息的XML类。当微信服务器接收到用户消息时，该类将生成相应的自动回复消息。以下是具体的代码实现：```phpclass We_Xml { // 代码内容}```通过这个类，开发者可以轻松地处理各种消息类型，并实现高效的自动回复功能。我们将深入探讨类的各个方法和属性，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-09 15:50:27
email
日常开发中常用的正则表达式集合，建议关注并收藏

在日常开发中，正则表达式是处理字符串时不可或缺的工具。本文汇总了常用的正则表达式，帮助开发者高效解决常见问题。例如，验证数字：`1$`；验证n位数字：`^\d{n}$`；验证至少n位数字：`^\d{n,}$`；验证m到n位数字：`^\d{m,n}$`。此外，还涵盖了验证零和非零数字、邮箱地址、手机号码等多种场景，建议关注并收藏以备不时之需。 ... [详细]

蜡笔小新 2024-11-08 16:38:13
cmd
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47
cmd
SQL Server 2005 登录故障分析与解决方法综述

SQL Server 2005 在安装过程中通常会伴随 VS2005 一起安装，并且为了便于数据库管理，还会安装 Management Studio Express 管理工具。然而，在实际使用中，用户可能会遇到登录故障。本文综合分析了这些登录问题的常见原因，并提供了多种有效的解决方法，包括检查配置设置、验证账户权限和网络连接等。通过这些措施，用户可以有效地诊断并解决 SQL Server 2005 的登录问题。 ... [详细]

蜡笔小新 2024-11-06 06:00:17
int
动态壁纸 LiveWallPaper：让您的桌面栩栩如生（第二篇）

在本文中，我们将继续探讨如何开发动态壁纸 LiveWallPaper，使您的桌面更加生动有趣。作为 2010 年 Google 暑期大学生博客分享大赛 Android 篇的一部分，我们将详细介绍 Ed Burnette 的《Hello, Android》第三版中的相关内容，并分享一些实用的开发技巧和经验。通过本篇文章，您将了解到如何利用 Android SDK 创建引人入胜的动态壁纸，提升用户体验。 ... [详细]

蜡笔小新 2024-11-06 02:00:32
select
SQLite数据库CRUD操作实例分析与应用

本文通过分析和实例演示了SQLite数据库中的CRUD（创建、读取、更新和删除）操作，详细介绍了如何在Java环境中使用Person实体类进行数据库操作。文章首先阐述了SQLite数据库的基本概念及其在移动应用开发中的重要性，然后通过具体的代码示例，逐步展示了如何实现对Person实体类的增删改查功能。此外，还讨论了常见错误及其解决方法，为开发者提供了实用的参考和指导。 ... [详细]

蜡笔小新 2024-11-05 16:56:48
select
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
python
掌握PHP编程必备知识与技巧——全面教程

掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中，了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先，确保你正在使用PHP 5.3或更高版本，最好是最新版本，以充分利用其性能优化和新特性。此外，我们还将探讨代码结构、安全性和性能优化等方面的内容，帮助你成为一名更高效的PHP开发者。 ... [详细]

蜡笔小新 2024-11-03 16:38:49
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
python
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
int
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
int
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14

开口就笑i

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章