热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【ICLR2021必读】【自监督学习】【Transformer】相关论文

导读国际表示学习大会(TheInternationalConferenceonLearningRepresentations)是致力于人工智能领域发展的

导读

国际表示学习大会(The International Conference on Learning Representations)是致力于人工智能领域发展的国际知名学术会议之一。ICLR 2021 将在明年5月4日举行,目前,本次大会投稿已经结束,最后共有3013篇论文提交。ICLR 采用公开评审机制,任何人都可以提前看到这些论文。

为了分析最新研究动向,我们精选了涵盖自监督学习、Transformer、图神经网络、自然语言处理、模型压缩等热点领域,将分多期为大家带来系列论文解读。

本期的关注焦点是自监督学习与Transformer。

点击文末“阅读原文”

获取正在接受盲审的论文列表

自监督学习

Self-Supervised Variational Auto-Encoders

变分自编码器(VAE)往往通过假设先验分布为高斯分布来简化计算过程,实际上真实数据的分布往往较为复杂,该假设会导致模型的过正则化并影响模型对真实分布的拟合能力;本文通过利用多个简单分布对复杂真实分布进行建模,并采用自监督方法对这些分布之间进行约束,进而提升VAE模型最终的效果。

论文链接:https://openreview.net/forum?id=zOGdf9K8aC

Self-Supervised Learning from a Multi-View Perspective

即使自监督学习已经取得了很好的效果,现有的方法依旧并不清楚自监督学习带来增益的主要原因;本文基于信息空间的考虑,认为自监督学习通过减少不相关信息来帮助收敛;此外本文还提出将自监督任务的两个经典方法——对比学习和预测学习任务进行合并,结合两者优点以增强自监督学习的效果。

论文链接:https://openreview.net/forum?id=-bdp_8Itjwp

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels

现有的噪声数据学习策略往往基于loss的噪声识别与再过滤的框架,其需要模型在warm-up阶段既能学习到足够好的特征信息,同时不至于过分拟合噪声数据的分布;改目的与对比学习任务非常契合,本文提出在warm-up阶段采用对比学习帮助进行特征学习,并基于对比学习策略帮助区分噪声数据。

论文链接:https://openreview.net/forum?id=uB5x7Y2qsFR

Improving Self-Supervised Pre-Training via a Fully-Explored Masked Language Model

现有的BERT等模型往往采用masked language model进行自监督学习,但是其往往采用随机的方法确定mask的word或者span;本文提出不合适的mask会导致梯度方差变大,并影响模型的效果,并分析原因在于同时mask的word之间具有一定的相似度;故本文提出一种特殊的mask机制,其考虑增大被mask的word之间的差异,进而削弱梯度方差大带来的影响。

论文链接:https://openreview.net/forum?id=cYr2OPNyTz7

Bi-Tuning of Pre-Trained Representations

随着预训练模型的快速发展,现有方法主要关注于如何进行pre-train,但是很少关注如何进行fine-tune;本文认为在fine-tune时模型很容易忘记预训练的信息并过拟合到当前任务,因此提出了一种特殊的Bi-tune策略,即利用对比学习作为正则项约束模型的收敛情况,进而帮助提升模型的效果。

论文链接:https://openreview.net/forum?id=3rRgu7OGgBI

Erasure for Advancing: Dynamic Self-Supervised Learning for Commonsense Reasoning

为了解决预训练模型很难学习到更精准的 question-clue pairs 问题,本文提出 DynamIc Self-sUperviSed Erasure (DISUSE)。其中包含 erasure sampler 和 supervisor,分别用于擦出上下文和问题中的多余线索,以及使用 self-supervised manner 进行监督。

论文链接:https://openreview.net/forum?id=WfY0jNndSn3

Transformer

Addressing Some Limitations of Transformers with Feedback Memory

Transformer结构因其并行计算的特性有很高的计算效率,但是这种特性限制了Transformer发掘序列信息的能力,这体现在底层表示无法获得高层表示信息。作者提出一种Feedback Memory结构,将所有历史的底层和高层表示信息传递给未来表示。

论文链接:https://openreview.net/forum?id=OCm0rwa1lx1

Not All Memories are Created Equal: Learning to Expire

Attention机制往往需要长期的记忆,但是实际上并不是所有历史信息都是重要的。因此,作者提出一种Expire-Span机制,动态地决定每一个时刻信息存活的时间长短,从而减少模型进行Attention操作耗费的空间开销。

论文链接:https://openreview.net/forum?id=ZVBtN6B_6i7

Memformer: The Memory-Augmented Transformer

目前大部分Transformer变体模型在处理长序列时都会存在效率问题。作者提出一种利用Memory机制来编码和保存历史信息,使得时间复杂度下降到线性时间,空间复杂度变为常数。

论文链接:https://openreview.net/forum?id=_adSMszz_g9

Non-iterative Parallel Text Generation via Glancing Transformer

本文提出了一种基于 glancing language model 的 Glancing Transformer,通过 one-iteration 的生成方式提升 NAT 的性能。其中 Glancing language model,可以通过两次 decoding 来降低学习难度以及加快生成速度。另外这种方法同样可以应用于其他基于 NAT 的任务。

论文链接:https://openreview.net/forum?id=ZaYZfu8pT_N

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套】
下载二:南大模式识别PPT后台回复【南大模式识别】说个正事哈由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦推荐两个专辑给大家:专辑 | 李宏毅人类语言处理2020笔记专辑 | NLP论文解读专辑 | 情感分析整理不易,还望给个在看!


推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 嵌入式处理器的架构与内核发展历程
    本文主要介绍了嵌入式处理器的架构与内核发展历程,包括不同架构的指令集的变化,以及内核的流水线和结构。通过对ARM架构的分析,可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 本文整理了Java中com.evernote.android.job.JobRequest.getTransientExtras()方法的一些代码示例,展示了 ... [详细]
  • 本文整理了Java中org.apache.solr.common.SolrDocument.setField()方法的一些代码示例,展示了SolrDocum ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • 原文地址http://balau82.wordpress.com/2010/02/28/hello-world-for-bare-metal-arm-using-qemu/最开始时 ... [详细]
  • 本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]
author-avatar
hjp1993
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有