热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

论文阅读:《APrimeronNeuralNetworkModelsforNaturalLanguageProcessing》(一)

https:blog.csdn.netu011239443articledetails80055046论文地址:http:u.cs.biu.ac.il~yogonnl

https://blog.csdn.net/u011239443/article/details/80055046
论文地址:http://u.cs.biu.ac.il/~yogo/nnlp.pdf

本论文很长,设计了许多神经网络与深度学习的基础知识。本文,我们将只针对和自然语言处理领域相关的章节进行深入的研读。

摘要

在过去的几年中,神经网络作为强大的机器学习模型重新出现,在图像识别和语音处理等领域产生了最先进的结果。最近,神经网络模型也开始应用到文本自然语言信号,再次得到非常好的结果。本教程从自然语言处理研究的角度调查神经网络模型,试图使自然语言研究者跟上神经网络技术的速度。本教程涵盖了自然语言任务、前馈网络、卷积网络、递归网络,以及自动梯度计算的计算图抽象。

介绍(略)

神经网络介绍(略)

特征表示

在更深入地讨论网络结构之前,重要的是要注意特征是如何表示的。现在,我们可以考虑前馈神经网络作为函数NN(x),其输入DIN维向量X并产生DUT维输出向量。该函数通常用作分类器,在一个或多个DOUT类中分配输入X。该函数可以是复杂的,并且几乎总是非线性的。该函数的共同结构将在第4节中讨论。这里,我们关注输入X。当处理自然语言时,输入X编码诸如单词、词性标记或其他语言信息的特征。当从稀疏输入线性模型到基于神经网络的模型移动时,最大的进步可能是不再将每个特征表示为唯一的维度(所谓的 one-hot 表示),而是将它们表示为密集向量。也就是说,每个核心特征被嵌入到一个D维空间中,并表示为该空间中的一个向量,然后可以像函数“NN”的其他参数一样训练嵌入(每个核心特征的向量表示)。图1显示了两种用于特征表示的方法。

稀疏与密集的特征表示。信息的两个编码:当前单词是“狗”;前一个单词是“the”;以前的POS标记是“DET”。(a)稀疏特征向量。每个维度代表一个特征。特征组合接收它们自己的维度。特征值是二进制的。维数很高。(b)基于密集、嵌入的特征向量。每个核心特征被表示为向量。每个特征对应于多个输入向量条目。没有显式编码的特征组合。维数很低。向量映射的特征来自嵌入表。

特征嵌入(每个特征的向量项的值)被视为需要与网络的其他组件一起训练的模型参数。稍后将讨论训练(或获得)特征嵌入的方法。现在,考虑给定的特征嵌入。

因此,基于前馈神经网络的NLP分类系统的一般结构是:

1.提取一组核心语言特征“F1,.…FK“,这与预测输出类有关。
2.对于感兴趣的每个特征FI,检索对应的向量V(FI)。
3.将向量(通过级联、求和或两者的组合)组合成输入向量X。
4.将X馈入非线性分类器(前馈神经网络)。


可变数量的特征:连续的单词袋

前馈网络假设一个固定的维输入。这可以容易地适应特征提取函数的情况,该特征提取出固定数量的特征:每个特征被表示为向量,并且向量被级联。这样,所得到的输入向量的每个区域对应于不同的特征。然而,在某些情况下,特征的数量事先不知道(例如,在文档分类中,句子中的每个词是一个特征是常见的)。因此,我们需要使用固定大小的向量来表示无限数量的特征。实现这一点的一种方式是通过所谓的连续字袋(CBOW)表示。CBOW非常类似于传统的词表示袋,其中我们丢弃顺序信息,并通过对相应特征的嵌入向量进行求和或平均来工作:

WCBOW表示的一个简单的变化是加权CBOW,其中不同的向量接收不同的权重:

这里,每个特征FI具有相关联的权重AI,指示特征的相对重要性。例如,在文档分类任务中,特征FI可以对应于文档中的单词,并且相关联的权重AI可以是单词的TF-IDF得分。

距离和位置特征

句子中两个词之间的线性距离可以作为信息特征。

特征组合。

注意,神经网络设置中的特征提取阶段只处理核心特征的提取。这与传统的基于线性模型的NLP系统形成了对比,在该系统中,特征设计者不仅要手动指定兴趣的核心特征,还必须手动地指定它们之间的交互。组合特征在线性模型中是至关重要的,因为它们将更多的维度引入到输入中,将其转换成数据点更接近线性可分离的空间。另一方面,可能的组合的空间非常大,特征设计者必须花费大量的时间来生成一组有效的特征组合。非线性神经网络模型的一个优势是,只需要定义核心特征。由网络结构定义的分类器的非线性预期会寻找指示性特征组合,从而减轻了特征组合工程的工作量。

维度大小

我们应该为每个特征分配多少维度?不幸的是,在这个空间中没有理论界限,甚至没有建立最佳实践。很明显,维度应该随着类别的数量而增长,但是多少才够呢?在当前的研究中,字嵌入向量的维数在大约50到几百之间,并且在一些极端情况下,数以千计。由于向量的维数对内存需求和处理时间有直接的影响,一个好的经验法则是用几个不同的大小进行实验,并且在速度和任务精度之间选择一个很好的折衷。

向量共享

考虑一个有几个共享相同词汇的特征的情况。例如,当给一个给定的单词分配一个词性时,我们可以考虑一组特征,考虑前一个单词,以及一组考虑下一个单词的特征。当构建分类器的输入时,我们将将前一个单词的向量表示连接到下一个单词的向量表示。然后分类器能够区分两个不同的指标,并对它们进行不同的处理。但是,这两个特征是否应该共享相同的向量?“狗:前一个词”的向量应该与“狗:下一个单词”的向量相同吗?或者我们应该给它们分配两个不同的向量?这又是一个经验问题。如果你相信单词出现在不同的位置时会有不同的行为,那么使用两个不同的词汇表并为每个特征类型分配不同的向量集可能是个好主意。但是,如果你相信单词在两个位置都是类似的,那么可以通过使用两个特征类型的共享词汇来获得信息。

网络输出

对于具有K类的多类分类问题,网络的输出是k维向量,其中每个维度表示特定输出类的强度。


推荐阅读
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 基于深度学习的遥感应用
    文章目录深度学习的发展过程深度学习在遥感中的应用基于深度学习的遥感样例库建设基于深度学习的遥感影像目标及场景检索基于深度学习的建筑物提取基于深度学习的密集建筑物自动检测基于深度学习 ... [详细]
  • 点击上方,选择星标或置顶,每天给你送干货!阅读大概需要4分钟跟随小博主,每天进步一丢丢来自:NLP太难了公众号 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • TensorFlow入门上
    前置准备在阅读本文之前,请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理,如果尚未了解,可以查看下文。神经网络初探​chrer.com也可以直接在我博客阅读Te ... [详细]
  • 开源真香 离线识别率高 Python 人脸识别系统
    本文主要介绍关于python,人工智能,计算机视觉的知识点,对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章,希望该技术和经验能帮到 ... [详细]
author-avatar
淘老婆桃桃_267
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有