【ICLR2021必读】【自监督学习】【Transformer】相关论文

作者：hjp1993 | 来源：互联网 | 2023-07-20 08:14

导读国际表示学习大会（TheInternationalConferenceonLearningRepresentations）是致力于人工智能领域发展的

导读

国际表示学习大会&＃xff08;The International Conference on Learning Representations&＃xff09;是致力于人工智能领域发展的国际知名学术会议之一。ICLR 2021 将在明年5月4日举行&＃xff0c;目前&＃xff0c;本次大会投稿已经结束&＃xff0c;最后共有3013篇论文提交。ICLR 采用公开评审机制&＃xff0c;任何人都可以提前看到这些论文。

为了分析最新研究动向&＃xff0c;我们精选了涵盖自监督学习、Transformer、图神经网络、自然语言处理、模型压缩等热点领域&＃xff0c;将分多期为大家带来系列论文解读。

本期的关注焦点是自监督学习与Transformer。

点击文末“阅读原文”

获取正在接受盲审的论文列表

自监督学习

Self-Supervised Variational Auto-Encoders

变分自编码器&＃xff08;VAE&＃xff09;往往通过假设先验分布为高斯分布来简化计算过程&＃xff0c;实际上真实数据的分布往往较为复杂&＃xff0c;该假设会导致模型的过正则化并影响模型对真实分布的拟合能力&＃xff1b;本文通过利用多个简单分布对复杂真实分布进行建模&＃xff0c;并采用自监督方法对这些分布之间进行约束&＃xff0c;进而提升VAE模型最终的效果。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;zOGdf9K8aC

Self-Supervised Learning from a Multi-View Perspective

即使自监督学习已经取得了很好的效果&＃xff0c;现有的方法依旧并不清楚自监督学习带来增益的主要原因&＃xff1b;本文基于信息空间的考虑&＃xff0c;认为自监督学习通过减少不相关信息来帮助收敛&＃xff1b;此外本文还提出将自监督任务的两个经典方法——对比学习和预测学习任务进行合并&＃xff0c;结合两者优点以增强自监督学习的效果。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;-bdp_8Itjwp

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels

现有的噪声数据学习策略往往基于loss的噪声识别与再过滤的框架&＃xff0c;其需要模型在warm-up阶段既能学习到足够好的特征信息&＃xff0c;同时不至于过分拟合噪声数据的分布&＃xff1b;改目的与对比学习任务非常契合&＃xff0c;本文提出在warm-up阶段采用对比学习帮助进行特征学习&＃xff0c;并基于对比学习策略帮助区分噪声数据。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;uB5x7Y2qsFR

Improving Self-Supervised Pre-Training via a Fully-Explored Masked Language Model

现有的BERT等模型往往采用masked language model进行自监督学习&＃xff0c;但是其往往采用随机的方法确定mask的word或者span&＃xff1b;本文提出不合适的mask会导致梯度方差变大&＃xff0c;并影响模型的效果&＃xff0c;并分析原因在于同时mask的word之间具有一定的相似度&＃xff1b;故本文提出一种特殊的mask机制&＃xff0c;其考虑增大被mask的word之间的差异&＃xff0c;进而削弱梯度方差大带来的影响。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;cYr2OPNyTz7

Bi-Tuning of Pre-Trained Representations

随着预训练模型的快速发展&＃xff0c;现有方法主要关注于如何进行pre-train&＃xff0c;但是很少关注如何进行fine-tune&＃xff1b;本文认为在fine-tune时模型很容易忘记预训练的信息并过拟合到当前任务&＃xff0c;因此提出了一种特殊的Bi-tune策略&＃xff0c;即利用对比学习作为正则项约束模型的收敛情况&＃xff0c;进而帮助提升模型的效果。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;3rRgu7OGgBI

Erasure for Advancing: Dynamic Self-Supervised Learning for Commonsense Reasoning

为了解决预训练模型很难学习到更精准的 question-clue pairs 问题&＃xff0c;本文提出 DynamIc Self-sUperviSed Erasure (DISUSE)。其中包含 erasure sampler 和 supervisor&＃xff0c;分别用于擦出上下文和问题中的多余线索&＃xff0c;以及使用 self-supervised manner 进行监督。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;WfY0jNndSn3

Transformer

Addressing Some Limitations of Transformers with Feedback Memory

Transformer结构因其并行计算的特性有很高的计算效率&＃xff0c;但是这种特性限制了Transformer发掘序列信息的能力&＃xff0c;这体现在底层表示无法获得高层表示信息。作者提出一种Feedback Memory结构&＃xff0c;将所有历史的底层和高层表示信息传递给未来表示。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;OCm0rwa1lx1

Not All Memories are Created Equal: Learning to Expire

Attention机制往往需要长期的记忆&＃xff0c;但是实际上并不是所有历史信息都是重要的。因此&＃xff0c;作者提出一种Expire-Span机制&＃xff0c;动态地决定每一个时刻信息存活的时间长短&＃xff0c;从而减少模型进行Attention操作耗费的空间开销。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;ZVBtN6B_6i7

Memformer: The Memory-Augmented Transformer

目前大部分Transformer变体模型在处理长序列时都会存在效率问题。作者提出一种利用Memory机制来编码和保存历史信息&＃xff0c;使得时间复杂度下降到线性时间&＃xff0c;空间复杂度变为常数。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;_adSMszz_g9

Non-iterative Parallel Text Generation via Glancing Transformer

本文提出了一种基于 glancing language model 的 Glancing Transformer&＃xff0c;通过 one-iteration 的生成方式提升 NAT 的性能。其中 Glancing language model&＃xff0c;可以通过两次 decoding 来降低学习难度以及加快生成速度。另外这种方法同样可以应用于其他基于 NAT 的任务。

论文链接&＃xff1a;https://openreview.net/forum?id&＃61;ZaYZfu8pT_N

下载一&＃xff1a;中文版&＃xff01;学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套&＃xff01;后台回复【五件套】下载二&＃xff1a;南大模式识别PPT后台回复【南大模式识别】说个正事哈由于微信平台算法改版&＃xff0c;公号内容将不再以时间排序展示&＃xff0c;如果大家想第一时间看到我们的推送&＃xff0c;强烈建议星标我们和给我们多点点【在看】。星标具体步骤为&＃xff1a;&＃xff08;1&＃xff09;点击页面最上方“深度学习自然语言处理”&＃xff0c;进入公众号主页。&＃xff08;2&＃xff09;点击右上角的小点点&＃xff0c;在弹出页面点击“设为星标”&＃xff0c;就可以啦。感谢支持&＃xff0c;比心。投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦推荐两个专辑给大家&＃xff1a;专辑 | 李宏毅人类语言处理2020笔记专辑 | NLP论文解读专辑 | 情感分析整理不易&＃xff0c;还望给个在看&＃xff01;

推荐阅读

https
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
https
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
uri
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
uri
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
uri
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
uri
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
range
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
version
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
version
嵌入式处理器的架构与内核发展历程

本文主要介绍了嵌入式处理器的架构与内核发展历程，包括不同架构的指令集的变化，以及内核的流水线和结构。通过对ARM架构的分析，可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]

蜡笔小新 2023-12-11 15:38:57
uri
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
java
com.evernote.android.job.JobRequest.getTransientExtras()方法的使用及代码示例

本文整理了Java中com.evernote.android.job.JobRequest.getTransientExtras()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-12-09 10:33:37
replace
org.apache.solr.common.SolrDocument.setField()方法的使用及代码示例

本文整理了Java中org.apache.solr.common.SolrDocument.setField()方法的一些代码示例，展示了SolrDocum ... [详细]

蜡笔小新 2023-12-09 06:54:05
java
常用的CSS属性及用法整理

本文整理了常用的CSS属性及用法，包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等，方便开发者查阅和使用。 ... [详细]

蜡笔小新 2023-12-09 03:01:43
rsa
qemu模拟arm并调试汇编的方法和注意事项

原文地址http://balau82.wordpress.com/2010/02/28/hello-world-for-bare-metal-arm-using-qemu/最开始时 ... [详细]

蜡笔小新 2023-10-17 19:43:26
java
org.apache.pig.backend.executionengine.ExecException.()方法的使用及代码示例

本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]

蜡笔小新 2023-10-17 14:26:45

hjp1993

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章