一个简单车辆分类案例带你入门Transformer

作者：山尖的霞1820_946 | 来源：互联网 | 2023-05-24 16:45

点击左上方蓝字关注我们Transformer架构早已在自然语言处理任务中得到广泛应用，如GPT,BERT等。同时，计算机视觉领域也开始涌现越来越多基于T

点击左上方蓝字关注我们

Transformer架构早已在自然语言处理任务中得到广泛应用&＃xff0c;如GPT, BERT等。同时&＃xff0c;计算机视觉领域也开始涌现越来越多基于Transformer的预训练模型。下文将详细介绍Transformer中的Attention机制和Encoder-Decoder结构&＃xff0c;以及Transformer在视觉领域的应用模型Vision Transformer,最后通过百度自研发的Paddle框架进行代码复现。

Attention Mechanism

&＃xff08;注意力机制&＃xff09;

注意力机制&＃xff08;Attention Mechanism&＃xff09;是机器学习中的一种数据处理方法&＃xff0c;广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。

Google 2017年论文中&＃xff0c;Attention Is All You Need曾经为Attention做了一个抽象定义&＃xff1a;

注意力是将一个查询&＃xff08;Query&＃xff09;和键值&＃xff08;Key&＃xff0c;Value&＃xff09;对映射到输出的方法。公式中的Q、K、V均为矩阵向量&＃xff0c;通过计算Q和K的相似性或者相关性&＃xff0c;得到每个K对应V的权重系数&＃xff0c;然后对V进行加权求和&＃xff0c;即得到了最终的Attention数值。所以本质上Attention机制是V进行加权求和&＃xff0c;而Q和K用来计算对应V的权重系数。

1.1 Self Attention(自注意力机制)

输入a1对应的输出b1是由序列a1至a4经线性变换&＃xff08;乘Wq、Wk、Wv矩阵&＃xff09;后的v1至v4加权得到&＃xff0c;其权重则由a1经线性变换得到的query q1与a1至a4经线性变换得到的key k1至k4计算内积并进行softmax归一化得到。因此&＃xff0c;a1与输入序列a1至a4的相关程度决定了b1的主要信息来源。

1.2 Multi-head Attention(多头注意力机制)

Multi-head Attention同Self Attention类似&＃xff0c;做线性变换得到qi、ki、vi&＃xff0c;在qi、ki、vi的基础再进行一次线性变换&＃xff08;乘Wq1、Wq2、Wk1、Wk2、Wv1、Wv2矩阵&＃xff09;得到qi.1、qi.2、qk.1、qk.2、qv.1、qv.2,如下图以2头注意力机制为例&＃xff0c;计算方式与Self Attention相同。

Multi-head Attention 是在Self Attention的基础上实现了类似feature map的功能&＃xff0c;即对输入序列a1至a4经线性变换后的q1至q4, k1至k4, v1至v4在embedding维度上进行分组&＃xff0c;每组各自进行self-attention, 最后把各组输出再组合还原为原来的embedding 维度。因此通常要求embedding的维度大小要能被head的数目进行整除以实现分组。

Encoder-Decoder

&＃xff08;编码器-解码器&＃xff09;

原始RNN只能处理&＃xff08;1&＃xff09;输入是序列&＃xff0c;输出是单独值&＃xff08;N->1&＃xff09;&＃xff1b;&＃xff08;2&＃xff09;输入是N维序列&＃xff0c;输出也是N维序列&＃xff08;N->N&＃xff09;。然而我们遇到的大部分问题序列都是不等长的&＃xff1a;输入是N维序列&＃xff0c;输出是M维序列&＃xff08;N->M&＃xff09;。如机器翻译中&＃xff0c;源语言和目标语言的句子往往并没有相同的长度。

Encoder-Decoder结构先将输入数据编码成一个上下文向量c&＃xff1a;得到c有多种方式&＃xff0c;最简单的方法就是把Encoder的最后一个隐状态赋值给c&＃xff0c;还可以对最后的隐状态做一个变换得到c&＃xff0c;也可以对所有的隐状态做变换。将c当做每一步的输入&＃xff0c;结构如下图。由于这种Encoder-Decoder结构不限制输入和输出的序列长度&＃xff0c;因此应用的范围非常广泛。

Transformer

3.1 Encoder

分为3个部分&＃xff1a;

输入部分&＃xff1a;Embedding&＃43;位置嵌入
Attention Mechanism&＃xff1a;上述已说明&＃xff0c;此处应用的是Multi-head Attention(多头注意力机制)
FFN&＃xff08;Feed Forward Neural Network&＃xff09;&＃xff1a;上一步获得的Attention值会送到encoder的FFN模块。FFN是由两层Dense&＃xff08;全连接层&＃xff09;构成&＃xff0c;采用ReLU作为激活函数。

3.2 Decoder

mask操作&＃xff0c;是对当前单词和之后的单词做mask操作&＃xff08;NLP中的操作&＃xff09;因为是预测后面的词&＃xff0c;所以不能让网络看见后面的词
进入Decoder的两条数据&＃xff0c;是由Encoder产生的k、v&＃xff0c;Decoder只提供q。

Vision Transformer

(ViT)

ViT是Google在2020年提出的直接将transformer应用在图像分类的模型&＃xff0c;后面很多的工作都是基于ViT进行改进的。操作步骤如下&＃xff1a;

图片分块&＃xff0c;展开&＃xff0c;做线性变换&＃xff08;形成与时间序列一致的输入&＃xff09;
在块序列首位置添加虚拟开始块&＃xff0c;用作后续的图像分类特征
使用Transformer-Encoder进行块编码&＃xff08;ViT未使用Decoder结构&＃xff09;
虚拟块表示作为分类向量&＃xff0c;通过MLP进行分类

项目开发框架-飞桨

&＃xff08;PaddlePaddle&＃xff09;

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础&＃xff0c;是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台&＃xff0c;集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。本项目在Paddle2.1框架基础上搭建模型Vision Transformer&＃xff0c;实现车辆分类的功能。

图像特征处理

将图像分成固定大小的patchs&＃xff0c;然后通过线性变换得到patch embedding&＃xff0c;这就类比NLP的words和word embedding&＃xff0c;由于transformer的输入就是a sequence of token embeddings&＃xff0c;所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。

# 获取图像特征def forward_features(self, x):B &＃61; x.shape[0] # Image Patch Embeddingx &＃61; self.patch_embed(x) # 分类 tokenscls_tokens &＃61; self.cls_token.expand((B, -1, -1)) # 拼接 Embedding 和分类 tokensx &＃61; paddle.concat((cls_tokens, x), axis&＃61;1) # 加入位置嵌入 Position Embeddingx &＃61; x &＃43; self.pos_embed # Embedding Dropoutx &＃61; self.pos_drop(x)# Transformer Encoder# 由多个基础模块组成for blk in self.blocks:x &＃61; blk(x) # Normx &＃61; self.norm(x) # 提取分类 tokens 的输出return x[:, 0]def forward(self, x):x &＃61; paddle.reshape(x, shape&＃61;[-1, 3,120,120])# 获取图像特征x &＃61; self.forward_features(x) # 图像分类 x &＃61; self.head(x) return x

模型搭建

使用Paddle2.1框架API对模型进行组网操作&＃xff0c;搭建模型Vision Transformer。&＃xff08;由于篇幅有限&＃xff0c;只给出主干代码&＃xff0c;详情请查看文章结尾给出的项目链接&＃xff09;

class VisionTransformer(nn.Layer):def __init__(self, img_size&＃61;120, patch_size&＃61;patch_size, in_chans&＃61;3, class_dim&＃61;train_parameters[&＃39;class_dim&＃39;], embed_dim&＃61;dim, depth&＃61;num_layers,num_heads&＃61;heads, mlp_ratio&＃61;4, qkv_bias&＃61;False, qk_scale&＃61;None, drop_rate&＃61;0., attn_drop_rate&＃61;0.,drop_path_rate&＃61;0., norm_layer&＃61;&＃39;nn.LayerNorm&＃39;, epsilon&＃61;1e-5, **args):super().__init__()self.class_dim &＃61; class_dim # 分类数self.num_features &＃61; self.embed_dim &＃61; embed_dim # 线性变换后输出张量的尺寸# 调用之前定义PatchEmbed函数&＃xff0c;此函数的操作&＃xff1a;# 保证图像一定能够完整切块&＃xff0c;获取图像切块的个数self.patch_embed &＃61; PatchEmbed(img_size&＃61;img_size, patch_size&＃61;patch_size, in_chans&＃61;in_chans, embed_dim&＃61;embed_dim)num_patches &＃61; self.patch_embed.num_patchesself.pos_embed &＃61; self.create_parameter(shape&＃61;(1, num_patches &＃43; 1, embed_dim), default_initializer&＃61;zeros_) # 位置编码self.add_parameter("pos_embed", self.pos_embed)self.cls_token &＃61; self.create_parameter( # 分类令牌&＃xff0c;可训练shape&＃61;(1, 1, embed_dim), default_initializer&＃61;zeros_)self.add_parameter("cls_token", self.cls_token)self.pos_drop &＃61; nn.Dropout(p&＃61;drop_rate) dpr &＃61; [x for x in paddle.linspace(0, drop_path_rate, depth)]# 调用Block函数&＃xff0c;此函数为Block类实现Transformer encoder的一个层self.blocks &＃61; nn.LayerList([Block( dim&＃61;embed_dim, num_heads&＃61;num_heads, mlp_ratio&＃61;mlp_ratio, qkv_bias&＃61;qkv_bias, qk_scale&＃61;qk_scale,drop&＃61;drop_rate, attn_drop&＃61;attn_drop_rate, drop_path&＃61;dpr[i], norm_layer&＃61;norm_layer, epsilon&＃61;epsilon)for i in range(depth)])self.norm &＃61; eval(norm_layer)(embed_dim, epsilon&＃61;epsilon)# Classifier headself.head &＃61; nn.Linear(embed_dim, class_dim) if class_dim > 0 else Identity()trunc_normal_(self.pos_embed)trunc_normal_(self.cls_token)self.apply(self._init_weights)

训练效果

将模型在训练集上的效果进行可视化输出

小结

使用飞桨API快速搭建Vision Transformer深度学习模型&＃xff0c;实现了车辆分类的功能&＃xff0c;实现从理论到实践的跨越。同时飞桨还包含丰富的开发套件&＃xff0c;比如PaddleClas用于图像分类、PaddleDetectiion用于目标检测、PaddleSeg用于图像分割、PaddleOCR用于文字提取等等&＃xff0c;套件中开源了众多模型框架&＃xff0c;为开发者开发提供了便利。最后&＃xff0c;欢迎各位开发者一起构建飞桨开源社区&＃xff0c;共同进步。

上述项目已开源在aistudio&＃xff1a;

https://aistudio.baidu.com/aistudio/projectdetail/2025419

如有飞桨相关技术有问题&＃xff0c;欢迎在飞桨论坛中提问交流&＃xff1a;

http://discuss.paddlepaddle.org.cn/

欢迎加入官方QQ群获取最新活动资讯&＃xff1a;793866180。

如果您想详细了解更多飞桨的相关内容&＃xff0c;请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

????长按上方二维码立即star&＃xff01;????

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础&＃xff0c;集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体&＃xff0c;是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性&＃xff0c;包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业&＃xff0c;提供零门槛、预置丰富网络和模型、便捷高效的开发平台&＃xff1b;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

推荐阅读

uri
推荐6款高效JavaWEB应用开发工具及其实用功能

本文推荐了六款高效的Java Web应用开发工具，并详细介绍了它们的实用功能。其中，分布式敏捷开发系统架构“zheng”项目，基于Spring、Spring MVC和MyBatis技术栈，提供了完整的分布式敏捷开发解决方案，支持快速构建高性能的企业级应用。此外，该工具还集成了多种中间件和服务，进一步提升了开发效率和系统的可维护性。 ... [详细]

蜡笔小新 2024-11-01 10:52:05
uri
探讨PHP集成QQ登录OAuth2.0时的常见问题与解决方案

大多数网站为了降低用户注册门槛并提升使用体验，通常会集成第三方登录功能。本文重点探讨了在使用PHP实现QQ登录OAuth2.0过程中遇到的常见问题及其解决方案。具体步骤包括：首先申请成为开发者，接着创建应用以获取AppId和AppKey，最后通过这些凭据获取access token。文章还详细介绍了在实际开发中可能遇到的问题及相应的解决方法，为开发者提供实用的参考。 ... [详细]

蜡笔小新 2024-10-31 13:07:57
char
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
io
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50
object
MVVM架构~mvc,mvp,mvvm大话开篇

返回目录百度百科的定义：MVP是从经典的模式MVC演变而来，它们的基本思想有相通的地方：ControllerPresenter负责逻辑的处理，Model提供数据，View负责显示。作为一种新的模 ... [详细]

蜡笔小新 2024-10-30 09:25:56
runtime
SSMS 启动故障：错误报告与解决求助

SSMS 启动故障：错误报告与解决求助 ... [详细]

蜡笔小新 2024-10-28 19:34:05
io
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
chat
如何在微信公众平台构建新浪云服务应用程序

如何在微信公众平台集成新浪云服务应用摘要：新浪云服务平台SinaAppEngine（简称SAE）自2009年启动内部研发，并于同年对外开放。本文详细介绍了如何利用SAE的强大功能，在微信公众平台上构建高效、稳定的云服务应用程序，涵盖从环境配置到应用部署的全流程，为开发者提供详尽的技术指导与实践案例。 ... [详细]

蜡笔小新 2024-10-26 19:45:54
io
全面解析：安检利器的高效应用与技术特点

全面解析：安检利器的高效应用与技术特点 ... [详细]

蜡笔小新 2024-10-25 18:04:07
io
基于阿里云ECS服务器的k8s集群环境搭建

前言: 网上搭建k8s的文章很多，但很多都无法按其说明在阿里云ecs服务器成功搭建，所以我就花了些时间基于自己成功搭建k8s的步骤写了个操作手册，希望对想搭建k8s环境的盆友有所帮 ... [详细]

蜡笔小新 2024-10-25 13:19:07
object
37Mapping 字段的数据类型解析及其 Object 类型的底层架构分析

1、字段类型概述一级分类二级分类具体类型核心类型字符串类型string,text,keyword整数类型integer,long,short,byte浮点类型double,flo ... [详细]

蜡笔小新 2024-10-23 09:55:16
object
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
object
优化后的标题：利用模板消息进行高效信息推送

通过优化模板消息机制，本研究提出了一种高效的信息化推送方案。该方案利用获取的访问令牌（access token）和指定的模板ID，实现了精准且快速的信息推送，显著提升了用户体验和信息传递效率。具体实现中，通过调用相关API接口，确保了消息的准确性和及时性，为用户提供更加便捷的服务。 ... [详细]

蜡笔小新 2024-11-01 15:24:52
function
池子比率：BSV 区块链上的去中心化金融应用——Uniswap 分析

池子比率：BSV 区块链上的去中心化金融应用——Uniswap 分析 ... [详细]

蜡笔小新 2024-11-01 13:03:17
cmd
结语 | 《探索二进制世界：软件安全与逆向分析》读书笔记：深入理解二进制代码的逆向工程方法

结语 | 《探索二进制世界：软件安全与逆向分析》读书笔记：深入理解二进制代码的逆向工程方法 ... [详细]

蜡笔小新 2024-10-31 18:43:36

山尖的霞1820_946

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章