当前位置: 开发笔记 > 编程语言 > 正文

论文阅读：《APrimeronNeuralNetworkModelsforNaturalLanguageProcessing》（一）

作者：淘老婆桃桃_267 | 来源：互联网 | 2023-08-14 14:15

https:blog.csdn.netu011239443articledetails80055046论文地址：http:u.cs.biu.ac.il~yogonnl

https://blog.csdn.net/u011239443/article/details/80055046
论文地址&＃xff1a;http://u.cs.biu.ac.il/~yogo/nnlp.pdf

本论文很长&＃xff0c;设计了许多神经网络与深度学习的基础知识。本文&＃xff0c;我们将只针对和自然语言处理领域相关的章节进行深入的研读。

摘要
在过去的几年中&＃xff0c;神经网络作为强大的机器学习模型重新出现&＃xff0c;在图像识别和语音处理等领域产生了最先进的结果。最近&＃xff0c;神经网络模型也开始应用到文本自然语言信号&＃xff0c;再次得到非常好的结果。本教程从自然语言处理研究的角度调查神经网络模型&＃xff0c;试图使自然语言研究者跟上神经网络技术的速度。本教程涵盖了自然语言任务、前馈网络、卷积网络、递归网络&＃xff0c;以及自动梯度计算的计算图抽象。

介绍&＃xff08;略&＃xff09;

神经网络介绍&＃xff08;略&＃xff09;

特征表示
在更深入地讨论网络结构之前&＃xff0c;重要的是要注意特征是如何表示的。现在&＃xff0c;我们可以考虑前馈神经网络作为函数NN&＃xff08;x&＃xff09;&＃xff0c;其输入DIN维向量X并产生DUT维输出向量。该函数通常用作分类器&＃xff0c;在一个或多个DOUT类中分配输入X。该函数可以是复杂的&＃xff0c;并且几乎总是非线性的。该函数的共同结构将在第4节中讨论。这里&＃xff0c;我们关注输入X。当处理自然语言时&＃xff0c;输入X编码诸如单词、词性标记或其他语言信息的特征。当从稀疏输入线性模型到基于神经网络的模型移动时&＃xff0c;最大的进步可能是不再将每个特征表示为唯一的维度&＃xff08;所谓的 one-hot 表示&＃xff09;&＃xff0c;而是将它们表示为密集向量。也就是说&＃xff0c;每个核心特征被嵌入到一个D维空间中&＃xff0c;并表示为该空间中的一个向量&＃xff0c;然后可以像函数“NN”的其他参数一样训练嵌入&＃xff08;每个核心特征的向量表示&＃xff09;。图1显示了两种用于特征表示的方法。

稀疏与密集的特征表示。信息的两个编码&＃xff1a;当前单词是“狗”&＃xff1b;前一个单词是“the”&＃xff1b;以前的POS标记是“DET”。&＃xff08;a&＃xff09;稀疏特征向量。每个维度代表一个特征。特征组合接收它们自己的维度。特征值是二进制的。维数很高。&＃xff08;b&＃xff09;基于密集、嵌入的特征向量。每个核心特征被表示为向量。每个特征对应于多个输入向量条目。没有显式编码的特征组合。维数很低。向量映射的特征来自嵌入表。

特征嵌入&＃xff08;每个特征的向量项的值&＃xff09;被视为需要与网络的其他组件一起训练的模型参数。稍后将讨论训练&＃xff08;或获得&＃xff09;特征嵌入的方法。现在&＃xff0c;考虑给定的特征嵌入。
因此&＃xff0c;基于前馈神经网络的NLP分类系统的一般结构是&＃xff1a;

1.提取一组核心语言特征“F1&＃xff0c;.…FK“&＃xff0c;这与预测输出类有关。
2.对于感兴趣的每个特征FI&＃xff0c;检索对应的向量V&＃xff08;FI&＃xff09;。
3.将向量&＃xff08;通过级联、求和或两者的组合&＃xff09;组合成输入向量X。
4.将X馈入非线性分类器&＃xff08;前馈神经网络&＃xff09;。

可变数量的特征&＃xff1a;连续的单词袋

前馈网络假设一个固定的维输入。这可以容易地适应特征提取函数的情况&＃xff0c;该特征提取出固定数量的特征&＃xff1a;每个特征被表示为向量&＃xff0c;并且向量被级联。这样&＃xff0c;所得到的输入向量的每个区域对应于不同的特征。然而&＃xff0c;在某些情况下&＃xff0c;特征的数量事先不知道&＃xff08;例如&＃xff0c;在文档分类中&＃xff0c;句子中的每个词是一个特征是常见的&＃xff09;。因此&＃xff0c;我们需要使用固定大小的向量来表示无限数量的特征。实现这一点的一种方式是通过所谓的连续字袋&＃xff08;CBOW&＃xff09;表示。CBOW非常类似于传统的词表示袋&＃xff0c;其中我们丢弃顺序信息&＃xff0c;并通过对相应特征的嵌入向量进行求和或平均来工作&＃xff1a;

WCBOW表示的一个简单的变化是加权CBOW&＃xff0c;其中不同的向量接收不同的权重&＃xff1a;

这里&＃xff0c;每个特征FI具有相关联的权重AI&＃xff0c;指示特征的相对重要性。例如&＃xff0c;在文档分类任务中&＃xff0c;特征FI可以对应于文档中的单词&＃xff0c;并且相关联的权重AI可以是单词的TF-IDF得分。

距离和位置特征

句子中两个词之间的线性距离可以作为信息特征。

特征组合。

注意&＃xff0c;神经网络设置中的特征提取阶段只处理核心特征的提取。这与传统的基于线性模型的NLP系统形成了对比&＃xff0c;在该系统中&＃xff0c;特征设计者不仅要手动指定兴趣的核心特征&＃xff0c;还必须手动地指定它们之间的交互。组合特征在线性模型中是至关重要的&＃xff0c;因为它们将更多的维度引入到输入中&＃xff0c;将其转换成数据点更接近线性可分离的空间。另一方面&＃xff0c;可能的组合的空间非常大&＃xff0c;特征设计者必须花费大量的时间来生成一组有效的特征组合。非线性神经网络模型的一个优势是&＃xff0c;只需要定义核心特征。由网络结构定义的分类器的非线性预期会寻找指示性特征组合&＃xff0c;从而减轻了特征组合工程的工作量。

维度大小
我们应该为每个特征分配多少维度&＃xff1f;不幸的是&＃xff0c;在这个空间中没有理论界限&＃xff0c;甚至没有建立最佳实践。很明显&＃xff0c;维度应该随着类别的数量而增长&＃xff0c;但是多少才够呢&＃xff1f;在当前的研究中&＃xff0c;字嵌入向量的维数在大约50到几百之间&＃xff0c;并且在一些极端情况下&＃xff0c;数以千计。由于向量的维数对内存需求和处理时间有直接的影响&＃xff0c;一个好的经验法则是用几个不同的大小进行实验&＃xff0c;并且在速度和任务精度之间选择一个很好的折衷。

向量共享
考虑一个有几个共享相同词汇的特征的情况。例如&＃xff0c;当给一个给定的单词分配一个词性时&＃xff0c;我们可以考虑一组特征&＃xff0c;考虑前一个单词&＃xff0c;以及一组考虑下一个单词的特征。当构建分类器的输入时&＃xff0c;我们将将前一个单词的向量表示连接到下一个单词的向量表示。然后分类器能够区分两个不同的指标&＃xff0c;并对它们进行不同的处理。但是&＃xff0c;这两个特征是否应该共享相同的向量&＃xff1f;“狗&＃xff1a;前一个词”的向量应该与“狗&＃xff1a;下一个单词”的向量相同吗&＃xff1f;或者我们应该给它们分配两个不同的向量&＃xff1f;这又是一个经验问题。如果你相信单词出现在不同的位置时会有不同的行为&＃xff0c;那么使用两个不同的词汇表并为每个特征类型分配不同的向量集可能是个好主意。但是&＃xff0c;如果你相信单词在两个位置都是类似的&＃xff0c;那么可以通过使用两个特征类型的共享词汇来获得信息。

网络输出
对于具有K类的多类分类问题&＃xff0c;网络的输出是k维向量&＃xff0c;其中每个维度表示特定输出类的强度。

推荐阅读

io
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
io
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
io
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
io
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
io
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
io
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
io
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
io
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
php
AI 学习路线：从Python开始机器学习

AI 学习路线：从Python开始机器学习 ... [详细]

蜡笔小新 2024-09-28 14:04:30
io
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
io
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
io
深度学习与人工智能书籍推荐（从小白到大神）

概述本书单分为“通识篇”、“机器学习篇”、“深度学习篇”、“深度学习框架篇”、“神经网络篇”、“自然语言处理篇”、“特征工程篇”以及“计算机视觉篇”，“通识篇”可以满足题主的要求！ ... [详细]

蜡笔小新 2024-09-29 12:39:01