Transformer研究综述（BERT，GPT3，ViT，DETR...）

作者：红红的累累vdHRC_958 | 来源：互联网 | 2023-07-16 13:54

最近整理了一些关于Transformer模型的研究综述，从17年Google最先提出到后来Transformer横扫各大NLP任务，到后来的视觉Transformer

最近整理了一些关于Transformer模型的研究综述&＃xff0c;从17年Google最先提出到后来Transformer横扫各大NLP任务&＃xff0c;到后来的视觉Transformer&＃xff0c;参考文献附在最后&＃xff0c;大家一起交流学习。

Google在2017年首次提出Transformer模型[1]&＃xff0c;如图1所示&＃xff0c;该模型使用编码器和解码器的堆叠自注意层和点向全连接层并使用Attention替换了原来Seq2Seq模型中的循环结构&＃xff0c;避免了重复和卷积。Transformer模型的出现使得NLP领域各项任务性能得到极大提升。

图1.Transformer结构模型

Devlin等人[2]引入了一个新的语言表示模型BERT&＃xff0c;它代表来自变压器的双向编码器表示。BERT的设计是通过在所有层的左右上下文中联合条件作用&＃xff0c;从未标记的文本中预先训练深度双向表示。只需添加一个输出层&＃xff0c;就可以对预先训练好的BERT模型进行微调&＃xff0c;从而为广泛的任务创建最先进的模型。BERT模型在11个自然语言处理任务上取得了最新的研究成果

Brown等人[3]在45TB压缩明文数据上预训练了基于GPT-3模型的具有1750亿个参数的巨大Transformer&＃xff0c;并且在不同类型的下游自然语言任务上实现了强性能而无需微调。这些基于变压器的模型表现出很强的表现能力&＃xff0c;并在自然语言处理领域取得了突破。

Parmar等人[4]把基于Attention的Transformer模型推广到具有易于处理的似然性的图像生成序列建模公式&＃xff0c;他将每个值为[0,255]的像素编码成一个d维向量作为编码器的输入。该模型特殊之处在于decoder&＃xff0c;每个输出像素是经过计算输入像素以及已经生成像素之间的Attention得到的。这是最先使用完整的 transformer 做图像生成的工作。

Dosovitskiy等人[5]证明了对CNN的依赖是不必要的&＃xff0c;直接应用于图像修补序列的纯的Transformer可以很好地执行图像分类任务。在大量数据上进行预先训练&＃xff0c;并转移到多个中型或小型图像识别基准(ImageNet, CIFAR-100, VTAB等)&＃xff0c;视觉转换器(ViT)与最先进的卷积网络相比取得了优异的结果&＃xff0c;而训练所需的计算资源则大大减少。

Carion等人[6]提出一种用于目标检测的Detection TRansformer (DETR&＃xff09;模型&＃xff0c;该模型将目标检测任务视为一种图像到集合的问题。给定一张图像&＃xff0c;模型必须预测所有目标的无序集合&＃xff08;或列表&＃xff09;&＃xff0c;每个目标基于类别表示&＃xff0c;并且周围各有一个紧密的边界框。这种表示方法特别适合Transformer。因此作者使用卷积神经网络从图像中提取局部信息&＃xff0c;同时利用Transformer编码器-解码器架构对图像进行整体推理并生成预测。在定位图像中的目标以及提取特征时&＃xff0c;传统计算机视觉模型通常使用基于自定义层的复杂且部分手动操作的pipeline。DETR则使用更为简单的神经网络&＃xff0c;它可以提供一个真正的端到端深度学习解决方案。

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[J]. arXiv, 2017.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J]. 2018.

[3] Bhandare A , Sripathi V , Karkada D , et al. Efficient 8-Bit Quantization of Transformer Neural Machine Language Translation Model[J]. 2019.

[4] Parmar N, Vaswani A, Uszkoreit J, et al. Image Transformer [J]. 2018.

[5] Desovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J]. 2020.

[6] Carion, Nicolas, et al. “End-to-End Object Detection with Transformers.” European Conference on Computer Vision, 2020, pp. 213–229.

推荐阅读

io
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
io
论文阅读：《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》

基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来，挑战性长尾分布上的视觉识别技术取得了很大的进展，主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]

蜡笔小新 2023-10-16 11:18:28
io
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
io
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
io
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
io
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
io
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
io
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
io
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
bit
文件压缩解压的哈夫曼树实现

本文介绍了使用哈夫曼树实现文件压缩和解压的方法。首先对数据结构课程设计中的代码进行了分析，包括使用时间调用、常量定义和统计文件中各个字符时相关的结构体。然后讨论了哈夫曼树的实现原理和算法。最后介绍了文件压缩和解压的具体步骤，包括字符统计、构建哈夫曼树、生成编码表、编码和解码过程。通过实例演示了文件压缩和解压的效果。本文的内容对于理解哈夫曼树的实现原理和应用具有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-11 14:13:46
io
Windows7 安装TensorflowGPU文档

安装Tensorflow-GPU文档第一步：通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]

蜡笔小新 2023-10-17 07:23:13
io
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
io
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
io
ui设计未来发展如何(ui设计师未来发展)

2018年我们对UI和UE的设计趋势预测主要在移动端，2019年的设计头号趋势是场景。一切都在场景中，相互关联。我们仿佛已经达到了工具全面，技术进步。这个时候，能否理解产品和用户如 ... [详细]

蜡笔小新 2023-10-13 13:20:06

红红的累累vdHRC_958

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章