2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

作者：粉红的少女 | 来源：互联网 | 2024-10-29 10:37

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。

640?wx_fmt&＃61;gif

向AI转型的程序员都关注了这个号&＃x1f447;&＃x1f447;&＃x1f447;

机器学习AI算法工程公众号&＃xff1a;datayx

斯坦福大学CS224n&＃xff08;全称&＃xff1a;深度学习与自然语言处理&＃xff09;是自然语言处理领域很受欢迎的课程&＃xff0c;由 Chris Manning 和 Richard Socher 主讲。

但是自 2017 年以来&＃xff0c;NLP 有了很多重大的变化&＃xff0c;包括 Transformer 和预训练语言模型等。以前开放的是 17 年年初的课程&＃xff0c;很多激动人心的前沿模型都没有介绍&＃xff0c;而今年年初 CS224n 终于开始更新 19 年课程的视频。

这门课程为深入学习NLP应用的前沿研究提供了深入的探索。课程最后的项目将涉及训练复杂的循环神经网络并将其应用于大型NLP问题。

在模型方面&＃xff0c;将涵盖词向量表示&＃xff0c;基于窗口的神经网络&＃xff0c;循环神经网络&＃xff0c;长短期记忆模型&＃xff0c;递归神经网络&＃xff0c;卷积神经网络以及一些涉及 memory component 的非常新的模型。

课程视频、Pytorch实现代码获取方式&＃xff1a;

2019斯坦福CS224n深度学习自然语言处理笔记&＃xff08;1&＃xff09;——绪论与Word2Vec

本文内容整理自2019年斯坦福CS224n深度学习自然语言处理课程&＃xff0c;其笔记为本人听课心得&＃xff0c;重点在于对于知识内容的思考&＃xff0c;并非课程原文笔记&＃xff0c;应称为课后笔记。

1.绪论

在本堂课中&＃xff0c;其基础技能需要懂得并应用&＃xff1a;Ipython&＃xff0c;numpy和Pytorch。其他的关于自然语言处理和深度学习&＃xff0c;上了这堂课&＃xff0c;你就会了解。

2. 语言的来源

语言&＃xff0c;语言是传递信息的声音和文字&＃xff0c;是人类沟通的主要方式&＃xff08;其他方式包括图像、触感等&＃xff09;。它作为人类文明的载体&＃xff0c;距今已有5000多年的历史。如此古老的本领&＃xff0c;在历史的长河之中&＃xff0c;没有出现质的改变&＃xff08;功能没有改变&＃xff0c;方式没有改变&＃xff09;。

在信息和信息传播活动&＃xff0c;人类历史中共有五次巨大变革&＃xff1a;

第一次&＃xff1a;语言的诞生&＃xff0c;是历史上最伟大的信息技术革命&＃xff0c;语言使人类描述信息、交流信息的方式得到了大大的改进&＃xff0e;

第二次&＃xff1a;文字的诞生&＃xff0c;为了便于交流和长期存储信息&＃xff0c;就要创造一些符号代表语言&＃xff0c;这些符号经过相当长的一段时间后逐渐演变成文字&＃xff0c;并固定下来&＃xff0e;

第三次&＃xff1a;印刷术的诞生&＃xff0c;使得知识可以大量生产、存储和流通&＃xff0c;进一步扩大了信息交流的范围&＃xff0e;

第四次&＃xff1a;电磁波的应用&＃xff0c;电磁波的应用使得信息传递的速度大大提高&＃xff0e;

第五次&＃xff1a;计算机技术的应用&＃xff0c;使人们对信息的处理能力、处理速度产生了飞跃&＃xff0e;

然而&＃xff0c;当今自然语言&＃xff08;人类使用的语言&＃xff0c;包含以上第一次、第二次革命的结果&＃xff09;&＃xff0c;相较于当今5G的网络传播速度&＃xff08;第五次革命&＃xff09;&＃xff0c;是相当的缓慢&＃xff0c;但是仍然被我们人类广泛使用&＃xff0c;那这是为什么&＃xff1f;这是因为语言虽然说的东西少&＃xff0c;但是听的内容多。这其中的信息增益&＃xff0c;来源于对于世界的认知。

所谓的意思&＃xff08;Meaning&＃xff09;指两个方面&＃xff0c;一方面是单词本身的意思&＃xff08;Representation for words&＃xff09;&＃xff0c;另一方面是使用单词想要表达的意思&＃xff08;Express by using words&＃xff09;。例如&＃xff0c;我渴了。句子本身是说我缺少水分&＃xff0c;而另一个含义是&＃xff0c;你需要给我倒杯水。这是使用这句话想要表达的意思。

从语言学角度来说&＃xff0c;文字等价于符号(signifier)&＃xff0c;也就是符号化所要表示的意思(signified the idea thing)。从这个角度讲&＃xff0c;符号学派的理论就自然站得住脚。

3. 符号理论的表示及运算方法

基于符号理论&＃xff0c;一个比较著名的应用是WordNet,NLTK工具包中包含这个应用&＃xff0c;它将单词之间的关系描述为同义词和上位词&＃xff08;synonym set and hypernyms&＃xff09;&＃xff0c; 也就是什么是什么的关系。这样就能够很好的解决不同符号所表示的不同含义及其之间的关系。在中文中&＃xff0c;也存在同样的工具&＃xff08;知网&＃xff0c;即HowNet&＃xff09;&＃xff0c;不是大家所熟知的论文检索网站。

这样&＃xff0c;WordNet就可以获得层次化的单词间的关系&＃xff0c;但是同样存在以下几个问题&＃xff1a;

缺少细微差别&＃xff0c;一词多义

无法添加新的含义

构建过程过于主观

在文本表示上&＃xff0c;如上所讲&＃xff0c;已经有一定的方法&＃xff0c;接下来需要解决的是如何进行语言间的运算&＃xff08;计算机要做的事&＃xff09;。

传统的自然语言处理&＃xff08;NLP&＃xff09;方式中&＃xff0c;将单词看作为离散的符号&＃xff08;discrete symbols&＃xff09;&＃xff0c;就像一个词典一样&＃xff0c;一个词对应一个编号&＃xff0c;更一般的&＃xff0c;使用独热&＃xff08;One-Hot&＃xff09;编码的形式。这样&＃xff0c;符号就可以转换为数值进行运算。

同样的&＃xff0c;该种方法同样存在一些问题&＃xff0c;例如&＃xff0c;词汇表太大&＃xff0c;英文词汇超过50万个。不能够计算相似度&＃xff08;一种方法是使用wordnet&＃xff0c;另一种方法就想去学习一种基于向量的表示方式&＃xff09;

那么&＃xff0c;如何去基于单词向量本身学习呢&＃xff1f;在1957年&＃xff0c;一种理论提出&＃xff1a;词汇的含义来源于其上下文&＃xff08;word’s means is given by it’s context&＃xff09;。跟随着这个思路&＃xff0c;从神经语言模型&＃xff08;2003&＃xff09;到Word2Vec&＃xff08;2013&＃xff09;的道路就都说的通了。

神经网络模型的目的是&＃xff0c;将单词进行分布式表示&＃xff0c;即把词映射到一个向量空间中&＃xff0c;使得相似的词拥有相似的位置。Word2Vec模型具有以下特点&＃xff1a;

拥有大规模语料库

词使用分布式向量表示

对于每一个文本&＃xff0c;均有一个中心词和一个上下文。

使用相似度计算中心词和上下文的概率

下面就是“硬核”Word2Vec的推导过程。

4. Word2Vec推导过程

我们使用Skip-Gram模型举例说明&＃xff0c;

首先&＃xff0c;Word2Vec同样使用极大似然估计&＃xff0c;就像我们上面所说&＃xff0c;它需要使得给定中心词&＃xff0c;使得上下文词出现概率最大&＃xff0c;即&＃xff1a;

640?wx_fmt&＃61;png

其中o表示目标词&＃xff0c;V表示词表。其含义为&＃xff0c;上面为两个词的矩阵的乘积最大&＃xff0c;下面为正则项。这就有点像softmax函数一样。此处&＃xff0c;我们先穿插一点&＃xff0c;可以看到&＃xff0c;其实这种计算方法就是使得越共现的词&＃xff0c;向量乘积越大,乘积越大&＃xff0c;则概率越大。最终会实现和某一个词的相关词和其都相似&＃xff0c;就使得这些相关词向量更加相似。

640?wx_fmt&＃61;png

首先想到为什么不直接使用词共现矩阵&＃xff0c;然后提出SVD的解决方法。在比较了基于统计和直接预测两种方法后&＃xff0c;提出Glove模型。接着对于词向量的评估方法和一词多义问题提出相应的解决方法。

1. 为什么不直接使用词共现矩阵获得词向量&＃xff1f;

在上一节中&＃xff0c;最后提出一个问题&＃xff0c;为什么不直接使用词共现矩阵获得词向量&＃xff1f;

1.1 词共现矩阵方法&＃xff08;窗口统计和全局统计&＃xff09;

其方法有2种&＃xff0c;第一种是局部窗口&＃xff0c;只统计在它附近窗口内的词&＃xff0c;第二种方法是全文词共现&＃xff0c;这就是所说的LSA方法&＃xff0c;从而能够获得主题信息。

根据例子我们可以发现&＃xff0c;直接使用词共现是由以下4个缺陷:

词表大小会不断增长
高维空间需要大量的空间存储
数据稀疏
不够健壮&＃xff08;鲁棒性差&＃xff0c;鲁棒&＃61;robust&＃xff09;

1.2 解决上述问题方法——SVD

所以&＃xff0c;其解决办法思路是&＃xff0c;能不能找到一个固定的&＃xff0c;低维的矩阵来把词共现的意思蕴含其中呢&＃xff1f;于是就是用了降维方法。常用的降维方法就是奇异值分解&＃xff08;Singular Value Decomposition, SVD&＃xff09;&＃xff0c;之所以叫做奇异值&＃xff0c;就是因为它来源于积分方程&＃xff08;设A为mn阶矩阵&＃xff0c;q&＃61;min(m,n)&＃xff0c;AA的q个非负特征值的算术平方根叫作A的奇异值。&＃xff09;。最初不是这个名字&＃xff0c;而是为标准乘子&＃xff08;canonical multipliers&＃xff09;&＃xff0c;也就是标准型上的对角元素。这里我们扯远了。

奇异值分解方法如下&＃xff1a;

640?wx_fmt&＃61;png

U和V是正交的。

当然&＃xff0c;这仍然会有之前出现的一些问题&＃xff0c;例如高频词&＃xff08;the,has,have&＃xff09;等&＃xff0c;统计方法是否科学等。其解决方法如下&＃xff1a;

最高频率设定阈值&＃xff0c;如100
使用皮尔逊系数取代频率&＃xff0c;并将负数置为0
使用倾斜窗口采样更多的词
等等

其结果也大致可看。

1.3 基于统计和直接预测方法比较

那么基于统计和直接预测两种方法比较如下&＃xff1a;

640?wx_fmt&＃61;png

3. 词向量评估

接下来的问题就是如何进行词向量的评估&＃xff0c;一般的NLP的评估分为内在的&＃xff08;Intrinsic&＃xff09;和外在的(extrinsic)两种方法&＃xff0c;区别如下。

640?wx_fmt&＃61;png

具体的&＃xff0c;内在性评估方法有常见的词距离是否表示相同的含义&＃xff08;anology&＃xff09;和信息检索等。

后面的实验&＃xff08;On the Dimensionality of Word Embedding&＃xff09;也证明以下问题&＃xff1a;

glove是比sg模型要好&＃xff0c;
1000维以上的词向量没有性能提升。
如果使用类似维基百科的语料比使用新闻语料要更好&＃xff0c;这是因为维基百科更能显示词与词之间的联系。

4. 一词多义

剩下要解决的问题就是接下来的方向&＃xff0c;可能存在一词多义现象。

其中一个解决方法是增加标号&＃xff0c;同一个词使用不同的标号表示不同的含义。

另一个方法是&＃xff0c;根据不同含义进行加权求和&＃xff0c;例如;

640?wx_fmt&＃61;png

然而随着技术的发展&＃xff0c;现有的解决方法是使用不同层次的编码层&＃xff0c;从而获得不同的含义&＃xff0c;这就使得一个词不仅基于该词本身的含义&＃xff08;最后一层输出&＃xff09;&＃xff0c;还基于其上下文&＃xff08;前n层的输出&＃xff09;。

原文地址https://blog.csdn.net/qq_35082030/article/details/88847720

阿里云双11大促服务器ECS 数据库全场1折

活动地址

640?wx_fmt&＃61;png

1核2G1M&＃xff0c;86一年&＃xff0c;¥229三年

2核4G3M&＃xff0c;¥799三年

2核8G5M&＃xff0c;¥1399三年

......

阅读过本文的人还看了以下文章&＃xff1a;

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加&＃xff1a; datayx

640?wx_fmt&＃61;jpeg

长按图片&＃xff0c;识别二维码&＃xff0c;点关注

AI项目体验

https://loveai.tech

640?wx_fmt&＃61;png

推荐阅读

ip
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
const
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
ip
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
ip
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
const
利用pg-promise批量插入记录

本文探讨了如何使用pg-promise库在PostgreSQL中高效地批量插入多条记录，包括通过事务和单一查询两种方法。 ... [详细]

蜡笔小新 2024-12-19 12:55:22
const
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
js
编程实践：创建抽奖游戏

本文详细介绍了如何通过HTML、CSS和JavaScript构建一个简单的在线抽奖游戏，包括布局设计、样式设置和交互逻辑实现。 ... [详细]

蜡笔小新 2024-12-07 13:43:33
js
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
ip
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
ip
F# Interactive 中的数据格式化技巧：使用 AddPrinter 和 AddPrintTransformer 自定义输出

本文探讨了如何在 F# Interactive (FSI) 中通过 AddPrinter 和 AddPrintTransformer 方法自定义类型（尤其是集合类型）的输出格式，提供了详细的指南和示例代码。 ... [详细]

蜡笔小新 2024-12-22 12:09:23
ip
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
const
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
js
一个登陆界面

预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]

蜡笔小新 2024-12-20 09:57:07
js
开发笔记:精通 CSS 第 10 章变换过渡与动画学习笔记

开发笔记:精通 CSS 第 10 章变换过渡与动画学习笔记 ... [详细]

蜡笔小新 2024-12-12 18:31:59
email
数字音视频编解码技术及其在短视频应用中的标准概述

本文介绍了数字音视频编解码技术标准，特别是中国自主研发的AVS标准，及其在短视频软件开发中的应用。文章探讨了AVS标准的发展历程、技术特点以及与国际标准的对比。 ... [详细]

蜡笔小新 2024-12-11 12:53:23

粉红的少女

网络借贷平台http://www.kljie.com/

Tags | 热门标签

RankList | 热门文章