AAAI2021最佳论文《Informer》作者：Transformer最新进展

作者：ccM保佑加琳诺爱儿1984f | 来源：互联网 | 2023-09-25 18:29

作者：周号益，彭杰奇单位：北京航空航天大学自2017年，AshishVaswani等人在《AttentionIsAllYou

作者&＃xff1a;周号益&＃xff0c;彭杰奇

单位&＃xff1a;北京航空航天大学

自2017年&＃xff0c;Ashish Vaswani等人在《Attention Is All You Need》这篇文章种提出了Transformer模型后&＃xff0c;BERT等工作极大地扩展了该模型在NLP等任务上的影响力。随之&＃xff0c; 有关Transformer模型的改进和应用逐渐成为人工智能研究的一大热门。

回顾Transformer模型的起源&＃xff0c;其最初作为有效顺序语言建模的新方法提出&＃xff0c;虽然只使用自注意力机制&＃xff08;Self-attention Mechanism&＃xff09;进行网络结构建模&＃xff0c;但它拥有更强的捕捉序列数据依赖的能力。此后得益于预训练模型的发展和普及&＃xff0c;Transformer类模型极大地推动了自然语言处理的下游任务的发展。

虽然获得了广泛的应用&＃xff0c;Transformer模型本身存在的内存开销和计算效率的瓶颈&＃xff0c;也催生了大量改进Transformer以减小开销并提升效果的研究。

与此同时&＃xff0c;Transformer模型也不再仅限于自然语言处理领域的应用&＃xff0c;很多研究者将Transformer引入到推荐系统、时间序列预测、计算机视觉、图神经网络以及多模态等领域&＃xff0c;在多个领域呈现热点研究的趋势。

在2月4日召开的AAAI 2021上同样涌现了大量和Transformer相关的研究&＃xff0c;本文约覆盖40余篇论文&＃xff0c;将从Self-Attention变体、更高效的模型架构、更深入的分析和更多样的应用几个方面对本次大会中的Transformer最新进展进行介绍。

自注意力机制的变体

自注意力机制是一种特殊的attention模型&＃xff0c;简单概括是一种自己学习自己的表征过程。特别地&＃xff0c;自注意力的计算/内存开销是随输入/输出的序列长度呈二次相关的&＃xff0c;这导致大规模的Transformer模型必须使用大量计算资源&＃xff0c;昂贵的训练和部署成本阻碍了模型的应用&＃xff1b;同时这也会限制Transformer模型对于长序列数据的处理能力。因此研究自注意力机制的变体&＃xff0c;实现高效Transformer成为了一个重要的研究方向。

Informer[1]基于自注意力机制中存在的查询稀疏性&＃xff08;attention的长尾分布&＃xff09;&＃xff0c;选择top-u进行query-key对的部分计算&＃xff0c;提出了ProbSparse Self-Attention替代标准的Self-Attention&＃xff0c;将自注意力机制的内存和计算开销从

减小到

。

Nyströmformer[2]将Nyström方法应用于自注意力机制的近似&＃xff0c;利用landmark&＃xff08;作者称之为Nyström&＃xff09; point来重构Self-Attention中的Softmax注意力矩阵&＃xff0c;从而避免

的矩阵计算&＃xff0c;得到了在内存和时间开销上复杂度为

的近似。

更高效的自注意力模型架构

除了对自注意力机制本身进行改变&＃xff0c;主动压缩模型结构并取得与原始网络结构相近的效果&＃xff0c;这也是一种获得高效的Transformer的重要手段。

[3]基于Transformer decoder的数学推导&＃xff0c;证明了在适当条件下压缩Transformer的基本子层来简化模型结构并获得更高的并行度是可行的&＃xff0c;并提出了子层数量为1的Decoder的来压缩Transformer&＃xff0c;在提高推理速度的同时不降低性能。

Informer[1]除了提出在时序问题下使用自注意力蒸馏机制&＃xff0c;每层Encdoer都将输入序列的长度减小一半&＃xff0c;从而大大减小了Encoder内存开销和计算时间&＃xff1b;同时提出在Decoder结构中使用生成式结构&＃xff0c;能够一次生成全部预测序列&＃xff0c;极大减小了预测解码耗时。

CP Transformer[4]通过类比在动态图上形成hyperedge的方式&＃xff0c;整合token的embedding来实现序列的压缩&＃xff0c;在音乐建模中使用更短的训练和推理时间生成了与Transformer-XL质量相当的完整钢琴曲。

Faster Depth-Adaptive Transformer[5]提出了基于互信息和重建损失的两种估计方法&＃xff0c;提前估计所需深度&＃xff0c;得到了一个相比原始Transformer速度快7倍&＃xff0c;且效率与鲁棒性相对其他深度自适应方法均有提高的深度自适应网络。

此外&＃xff0c;GPKD[6]是一种基于组排列的知识蒸馏方法&＃xff0c;能够将深度Transformer模型压缩为浅层模型&＃xff0c;且性能牺牲较小&＃xff0c;其性能大大优于SKD方法。

LRC-BERT[7]提出了一种基于对比学习的知识蒸馏方法&＃xff0c;从角度距离的角度来拟合中间输出&＃xff0c;并在训练阶段引入了基于梯度扰动的训练体系以提高模型鲁棒性。

对Transformer架构更深入的分析

伴随Transformer的广泛应用&＃xff0c;对于其内部工作机理的研究以及对模型的攻击和防护也更加关键。

[8]提出了一种自注意力归因方法&＃xff0c;给出了Transformer内部的信息交互的一种诠释&＃xff0c;利用归因得分推导出交互树&＃xff0c;进一步合理可视化自注意力机制&＃xff1b;该方法能识别出重要的注意头&＃xff0c;形成了一种注意头修剪方法&＃xff1b;并且还可以用来构造对抗触发器来实现非目标攻击。

Ashim Gupta等人[9]则研究了BERT家族中的大模型对于不连贯输入的响应&＃xff0c;定义了简单的启发式方法来构造例子&＃xff0c;使目前的模型都无法有效区分这些无效文本&＃xff1b;同时这些输入可以被显式地加入训练&＃xff0c;模型可以在不降低性能的情况下对此类攻击具有鲁棒性。

Madhura Pande等人[14]的研究提出了一个统一方法来分析Multi-head Self-Attention中各注意头&＃xff0c;通过筛选偏倚得分来获得分头功能作用&＃xff0c;假设检验确保了统计显著性&＃xff1b;作为一种新视角&＃xff0c;作者同时还研究了任务微调对注意力角色的影响及关联问题。

将Transformer拓展到更多样的应用

值得关注的是&＃xff0c;Transformer模型相关的应用已经不局限于自然语言处理领域[18-25]&＃xff0c;在时序预测、图网络、计算机视觉以及多模态等领域&＃xff0c;类Transformer模型也展现出了不俗的效果。

Informer[1]的研究表明Transformer在时间序列&＃xff08;长序列预测&＃xff09;中拥有更加出色的建模能力。CNMT[10]利用OCR系统和多模态Transformer进行TextCaps任务。

而针对图像字幕生成任务&＃xff0c;GET[11]设计了一种全局增强的Transformer来提取更全面的表示&＃xff0c;其包括一个全局增强编码器来捕捉全局特征和一个全局自适应解码器来指导字幕的生成&＃xff0c;从而得到高质量的字幕。

DLCT[12]同样是研究图像字幕生成&＃xff0c;这是一种双层协同Transformer模型&＃xff1b;其设计了综合关系注意&＃xff08;CRA&＃xff09;和双向自我注意&＃xff08;DWSA&＃xff09;的层次内融合&＃xff0c;合并了区域和网格的外观和几何特征&＃xff1b;通过一种应用局部约束交叉注意&＃xff08;LCCA&＃xff09;的几何对齐图实现特征增强&＃xff0c;解决了两种特征直接融合引起的语义噪声问题。

针对视听场景感知对话问题&＃xff0c;STSGR[13]提出了一种新的层次图表示学习和基于Transformer的推理框架&＃xff0c;模型能够产生对象、框架和视频级别的表示&＃xff0c;并被系统集成来产生视觉记忆&＃xff1b;这些记忆则以输入问题为条件&＃xff0c;使用一个Shuffled Transformer&＃xff0c;顺序地融合到其他知识&＃xff08;如对话历史等&＃xff09;的编码中。

图注意力转换编码器GATE[15]提出利用Self-Attention机制&＃xff0c;明确地融合结构信息来学习不同句法距离的单词之间的依赖关系&＃xff0c;对细粒度句法结构信息进行建模&＃xff0c;来生成结构化的上下文表示&＃xff1b;从而解决GCNs很难对具有长期依赖关系的单词建模&＃xff0c;让依赖树中没有直接连接的元素得到了更健壮的表示。

RpBERT[16]针对推文中与文本无关的图像在多模态学习中的视觉注意力问题进行了研究&＃xff0c;提出了一种基于“文本-图像”关系推理及传播的多模态模型&＃xff1b;模型通过文本图像关系分类和下游NER的多重任务进行训练&＃xff0c;并在MNER数据集上实现了最先进的性能。

ActionBert[17]将Bert应用到UI任务中&＃xff0c;探索跟踪用户动作来构建通用特征表示&＃xff0c;以促进用户界面的理解&＃xff1b;模型利用用户交互追踪中的视觉、语言和领域特定的特征来预先训练UI及其组件的一般特征表示&＃xff0c;得到一个预先训练的用户界面嵌入模型&＃xff0c;并应用到多个用户界面理解任务中。

## 参考文献

[1] Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

[2] Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention

[3] An Efficient Transformer Decoder with Compressed Sub-layers

[4] Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

[5] Faster Depth-Adaptive Transformers

[6] Learning Light-Weight Translation Models from Deep Transformer

[7] LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding

[8] Self-Attention Attribution: Interpreting Information Interactions Inside Transformer

[9] BERT & Family Eat Word Salad: Experiments with Text Understanding

[10] Confidence-aware Non-repetitive Multimodal Transformers for TextCaps

[11] Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network

[12] Dual-Level Collaborative Transformer for Image Captioning

[13] Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers

[14] The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT

[15] GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction

[16] RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER

[17] ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces

[18] Contrastive Triple Extraction with Generative Transformer

[19] LightXML: Transformer with Dynamic Negative Sampling for High-Performance Extreme Multi-label Text Classification

[20] Future-Guided Incremental Transformer for Simultaneous Translation

[21] Segatron: Segment-Aware Transformer for Language Modeling and Understanding

[22] Paragraph-level Commonsense Transformers with Recurrent Memory

[23] Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis

[24] IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization

[25] DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances

推荐阅读

match
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
get
探索CNN的可视化技术

神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN（卷积神经网络）可视化方法，旨在帮助读者更好地理解和优化模型。 ... [详细]

蜡笔小新 2024-11-24 11:30:28
ip
详解Linux命令：mysqlshow的使用方法

本文详细介绍了如何使用Linux下的mysqlshow命令来查询MySQL数据库的相关信息，包括数据库、表以及字段的详情。通过本文的学习，读者可以掌握mysqlshow命令的基本语法及其常用选项。 ... [详细]

蜡笔小新 2024-11-24 11:25:08
数组
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
get
Oracle RMAN 增量备份详解：差异增量与累积增量

本文详细介绍了Oracle RMAN中的增量备份机制，重点解析了差异增量和累积增量备份的概念及其在不同Oracle版本中的实现。通过对比两种备份方式的特点，帮助读者选择合适的备份策略。 ... [详细]

蜡笔小新 2024-11-25 19:07:53
ip
CCIE R&S v5 动态更新

最新进展：作为最接近官方声明的信息源，本文吸引了大量关注。若需获取最新动态，请访问：lkhill.com/ccie-version-5-update ... [详细]

蜡笔小新 2024-11-25 12:16:36
get
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
const
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
get
确定合适的序列化版本ID的方法

本文探讨了如何选择一个合适的序列化版本ID（serialVersionUID），包括使用生成器还是简单的整数，以及在不同情况下应如何处理序列化版本ID。 ... [详细]

蜡笔小新 2024-11-24 03:51:53
get
将datatable导出为excel的三种方式（转）

一、使用Microsoft.Office.Interop.Excel.DLL需要安装Office代码如下：2publicstaticboolExportExcel(S ... [详细]

蜡笔小新 2024-11-23 16:37:33
const
SSE图像算法优化系列三：超高速导向滤波实现过程纪要（欢迎挑战）

自从何凯明提出导向滤波后，因为其算法的简单性和有效性，该算法得到了广泛的应用，以至于新版的matlab都将其作为标准自带的函数之一了&#x ... [详细]

蜡笔小新 2024-11-23 10:46:33
数组
基于OpenCV和Python的边缘检测与四点变换实现

本文介绍了如何利用OpenCV库进行图像的边缘检测，并通过Canny算法提取图像中的边缘。随后，文章详细说明了如何识别图像中的特定形状（如矩形），并应用四点变换技术对目标区域进行透视校正。 ... [详细]

蜡笔小新 2024-11-22 11:31:52
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56

ccM保佑加琳诺爱儿1984f

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章