热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

「自然语言处理(NLP)」(用二进制句向量表示)【杜克大学&&微软研究院】

来源:AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2019-8-24引言    本文共计两篇paper,第一篇主要针对常规的句子向量表示需要占用大量内存的




来源:AINLPer微信公众号

编辑: ShuYini

校稿: ShuYini

时间: 2019-8-24



引言

    本文共计两篇paper,第一篇主要针对常规的句子向量表示需要占用大量内存的问题,创新性的采用二值化来表示句子向量从而减少资源消耗,提高低配资源平台的适用性。第二篇,主要从不同类型的反馈对学习结果有不同的效果入手,在交互式神经机器翻译实验中,自调节器通过混合不同的反馈类型(包括校正、错误标记和自监督),我们发现了最优的代价质量折衷的贪婪策略,它将有希望成为主动学习中比较有前景的算法。


First Blood

TILE: ## Learning Compressed Sentence Representations for On-Device Text Processing.

Contributor : 杜克大学&&微软研究院

Paper: https://www.aclweb.org/anthology/P19-1011

Code: None


文章摘要

    基于大量文本语料库训练的句子向量表示方法被广泛应用于各种NLP问题中。学习表示通常假设为连续的、实值的,但是这样会导致内存占用大,检索速度慢,阻碍了在低资源(内存和计算)平台上的适用性,比如移动设备。为此本文提出了四种不同的策略来将连续句和一般句嵌入转换成二值化的形式,同时保留它们丰富的语义信息。所介绍的方法在一系列下行任务中进行了评估,在这些任务中,与连续任务相比,二值化语句嵌入仅降低了约2%的性能,同时降低了98%以上的存储需求。此外,利用学习的二值表示方法,可以通过计算两句话的汉明距离来评估两句话的语义关联,与连续嵌入之间的内积运算相比,汉明距离计算效率更高。


本文三大看点

    1、对学习通用二值化(记忆效率)句子表示进行了第一次系统的探索,并提出了四种不同的策略。

    2、精心设计了一个可以保留语义损失的自动编码器架构,且其在下行NLP任务上显示了出了比较好的效果。

    3、更重要的是,我们在多个句子匹配数据集上证明,简单地计算二进制表示上的汉明距离,其性能与计算连续对应项之间的余弦相似度相当,但是余弦相似度的计算效率更低。


四种不同的策略介绍


Hard Threshold

    结构图如下:    用h和b分别表示连续句嵌入和二进制句嵌入,L表示h的维数。对连续表示进行二值化的第一种方法是根据硬阈值将每个维数简单地转换为0或1。这种策略不需要任何训练,而是直接对预先训练的连续嵌入进行操作。假设s是硬阈值,i=1,2L:i = 1,2,……,L:i=1,2,……,L:


Random Projection

    结构图如下:    为了解决上述直接二值化方法的局限性,我们提出一种不需要任何训练的替代策略即在预先训练好的连续表示上应用随机投影。我们随机初始化一个矩阵WRD×LW∈R^{D×L}W∈RD×L,其中D表示得到的二进制表示的维数,然后将矩阵值初始化为均匀采样。i=1,2Di = 1,2,…,Di=1,2,…,D和j=1,2Lj = 1,2,…Lj=1,2,…L,我们有:


Principal Component Analysis

    结构图如下:    我们还考虑了一种策略来自适应地选择生成的二进制表示的维数。其中,用主成分分析(PCA)来减少预先训练的连续嵌入的维数。


Autoencoder Architecture

    上述方法存在一个共同的问题,即模型目标不是直接学习的二进制代码保留原始连续嵌入的语义信息,而是训练后采用单独的二值化步骤。为了解决这个缺点,我们进一步考虑了一种自动编码器体系结构,它利用重构损失为学习的二进制表示提供更多的信息。具体地说,利用编码器网络将连续信号转换为二进制潜在向量,然后用解码器网络将其重构回来。其模型结构如下:


实验结果

十个下行任务测试结果如下图所示:

其中,STS14、STSB、MRPC分别采用Pearson和Spearman相关进行评价,SICK-R采用Pearson相关进行测量。所有其他数据集都以测试精度进行评估。InferSent-G使用Glove (G)作为单词embeddings,而InferSent- ff使用FastText(F) embeddings。

SNLI数据集上的最近邻检索结果:    给定一个查询语句,左列显示基于汉明距离的前3个检索到的样本,其中包含所有语句的二进制表示,而右列显示的样本则根据它们连续嵌入的余弦相似性。


Double Kill

TILE: Self-Regulated Interactive Sequence-to-Sequence Learning。

Contributor : 德国海德堡大学

Paper: https://www.aclweb.org/anthology/P19-1029

Code: None


文章摘要

    并不是所有类型的监督信号都是相同的:不同类型的反馈对学习有不同的成本和效果。文中展示了自我调节策略是如何决定什么时候向老师(或自己)寻求哪种反馈的,这些策略可以被转换成一个“学习到学习”的问题,从而提高代价感知的顺序到顺序学习。在交互式神经机器翻译实验中,自调节器通过混合不同的反馈类型(包括校正、错误标记和自监督),我们发现了最优的代价质量折衷的贪婪策略。此外,我们证明了它在域转移下的鲁棒性,并将其作为主动学习的一个有前途的替代方法。


本文三大看点

    1、首先从不同类型的反馈中比较Seq2Seq训练目标。

    2、然后介绍了自调节模块。

    3、最后将两者结合在自调节算法中。


Seq2Seq Learning

Learning from Corrections: 当使用人工生成的参考资料以及在线调整后发布的内容进行训练时,这一训练目标是标准的监督学习。

**Learning from Error Markings :**虽然序列中不正确部分的可能性不影响总和,但是它们包含在正确部分的上下文中。

**Self-Supervision :**不同于向teacher寻求反馈,learner也可以选择从自己的输出中学习,也就是从自我监督中学习。简单命题是把learner的输出当作是正确的,但这很快就会导致过度自信和退化。


Learning to Self-regulate

    规则器是Seq2Seq学习中另外一种优化质量、权衡成本的神经模型qφq_φqφ​。给定一个输入xix_ixi​和Seq2Seqs假设yiy_iyi​,在这里选择一个动作,这种反馈的选择决定了Seq2Seq学习器的更新,如下图所示


Algorithm

具体算法如下所示:    其中算法1提出了基于小批量模型更新的在线学习算法。当一个新的输入到达时,调节器在第6行预测一个反馈类型。根据该预测,要求环境/用户对代价ci下的Seq2Seq预测进行反馈(第7行),根据前一张图中假设的反馈和计算的小批量随机梯度,对Seq2Seq模型进行更新。为了加强调节器,对Seq2Seq模型的改进(第9行)进行评估,并更新调节器的参数(第10行)。中间Seq2Seq评估可用于模型选择(早期停止)。在实践中,这些评估可以通过在一个未完成的集合上进行验证,也可以通过人工评估来执行。


实验结果

    规则变量对累积成本的影响    对IWSLT进行训练的调整器的域转移到图书域(仅比较完整和弱反馈)    学习自我调节策略,与基于不确定性的主动学习相比,在书本领域有固定比例的完全反馈。


ACED


Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。



推荐阅读
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • SOA架构理解理解SOA架构,了解ESB概念,明白SOA与微服务的区别和联系,了解SOA与热门技术的结合与应用。1、面向服务的架构SOASOA(ServiceOrien ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 全面介绍Windows内存管理机制及C++内存分配实例(四):内存映射文件
    本文旨在全面介绍Windows内存管理机制及C++内存分配实例中的内存映射文件。通过对内存映射文件的使用场合和与虚拟内存的区别进行解析,帮助读者更好地理解操作系统的内存管理机制。同时,本文还提供了相关章节的链接,方便读者深入学习Windows内存管理及C++内存分配实例的其他内容。 ... [详细]
  • 如何使用PLEX播放组播、抓取信号源以及设置路由器
    本文介绍了如何使用PLEX播放组播、抓取信号源以及设置路由器。通过使用xTeve软件和M3U源,用户可以在PLEX上实现直播功能,并且可以自动匹配EPG信息和定时录制节目。同时,本文还提供了从华为itv盒子提取组播地址的方法以及如何在ASUS固件路由器上设置IPTV。在使用PLEX之前,建议先使用VLC测试是否可以正常播放UDPXY转发的iptv流。最后,本文还介绍了docker版xTeve的设置方法。 ... [详细]
  • 前言整个信息技术的很多领域,都是相互关联的,IT也是一样,他们有着他们的规律,在其中摩尔定律,安迪——比尔定律,反摩尔定律组成了计算机行业的发展规律摩尔定律科技行业流传着一个 ... [详细]
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
  • 软件测试工程师,需要达到什么水平才能顺利拿到 20k+ 无压力?
    前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]
author-avatar
徐韦志弘宇靖宏
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有