Conformer代码讲解

作者：us0569398 | 来源：互联网 | 2023-09-12 08:26

主要讲重点：CNN与transformer模块是怎么融合的1.通用stem输入图片卷积后为（b,256,56,56）。四倍下采样后为&

主要讲重点&＃xff1a;CNN与transformer模块是怎么融合的

1.通用stem

输入图片卷积后为&＃xff08;b,256,56,56&＃xff09;。四倍下采样后为&＃xff08;b&＃xff0c;384&＃xff0c;14&＃xff0c;14&＃xff09;&＃xff0c;再加上&＃xff08;1&＃xff0c;384&＃xff09;维度的class_token成为&＃xff08;b&＃xff0c; 197&＃xff0c;384&＃xff09;

for i in range(2, self.fin_stage):x, x_t &＃61; eval(&＃39;self.conv_trans_&＃39; &＃43; str(i))(x, x_t) # 这里要重复2-12次&＃xff0c;输入是特征图x&＃xff08;b,256,56,56&＃xff09;与token x_t(b,197,384)&＃xff0c;输出也是这两个部分。下面拆开讲解循环部分&＃xff1a;
2.初始下采样

def forward(self, x, x_t):x, x2 &＃61; self.cnn_block(x) # 第一次后维度x(b,256,56,56) x2(b,64,56,56) i&＃61;5时为 (512,28,28)(128, 28, 28)# self.cnn_block作用是下采样&＃xff0c;在i循环中&＃xff08;2-12&＃xff09;&＃xff0c;2-4不变&＃xff0c;5-8不变&＃xff0c;9不变&＃xff0c;12-12不变
3.CNN–>Trans

_, _, H, W &＃61; x2.shapex_st &＃61; self.squeeze_block(x2, x_t) x_t &＃61; self.trans_block(x_st &＃43; x_t)# 特征图x2经过2次卷积-->(b&＃xff0c;196,384)&＃xff0c;叠加x_t的第一维&＃xff0c;成为 x_st(b, 197, 384)。x_st 与 x_t相加&＃xff0c;输入Trans模块&＃xff0c;得到 x_t维度不变。

self.squeeze_block&＃xff1a;(conv_project): Conv2d(128, 384, kernel_size&＃61;(1, 1), stride&＃61;(1, 1))(sample_pooling): AvgPool2d(kernel_size&＃61;2, stride&＃61;2, padding&＃61;0)(ln): LayerNorm((384,), eps&＃61;1e-06, elementwise_affine&＃61;True)(act): GELU()def forward(self, x, x_t):x &＃61; self.conv_project(x) # [N, C, H, W]x &＃61; self.sample_pooling(x).flatten(2).transpose(1, 2)x &＃61; self.ln(x)x &＃61; self.act(x)x &＃61; torch.cat([x_t[:, 0][:, None, :], x], dim&＃61;1)return x
4.Trans–>CNN

x_t_r &＃61; self.expand_block(x_t, H // self.dw_stride, W // self.dw_stride) x &＃61; self.fusion_block(x, x_t_r, return_x_2&＃61;False) # 将token embed 进行双线性插值&＃xff0c;得到 x_t_r(b&＃xff0c; 64, 56, 56])&＃xff0c;增大了分辨率 # 变成矩阵的 x_t_r 再加回到特征图x&＃xff0c;得到xreturn x, x_t

self.expand_block&＃xff1a; (conv_project): Conv2d(384, 128, kernel_size&＃61;(1, 1), stride&＃61;(1, 1))(bn): BatchNorm2d(128, eps&＃61;1e-06, momentum&＃61;0.1, affine&＃61;True, track_running_stats&＃61;True)(act): ReLU()def forward(self, x, H, W):B, _, C &＃61; x.shape# [N, 197, 384] -> [N, 196, 384] -> [N, 384, 196] -> [N, 384, 14, 14]x_r &＃61; x[:, 1:].transpose(1, 2).reshape(B, C, H, W)x_r &＃61; self.act(self.bn(self.conv_project(x_r)))return F.interpolate(x_r, size&＃61;(H * self.up_stride, W * self.up_stride))

self.fusion_block&＃xff1a;(conv1): Conv2d(512, 128, kernel_size&＃61;(1, 1), stride&＃61;(1, 1), bias&＃61;False)(bn1): BatchNorm2d(128, eps&＃61;1e-06, momentum&＃61;0.1, affine&＃61;True, track_running_stats&＃61;True)(act1): ReLU(inplace&＃61;True)(conv2): Conv2d(128, 128, kernel_size&＃61;(3, 3), stride&＃61;(1, 1), padding&＃61;(1, 1), bias&＃61;False)(bn2): BatchNorm2d(128, eps&＃61;1e-06, momentum&＃61;0.1, affine&＃61;True, track_running_stats&＃61;True)(act2): ReLU(inplace&＃61;True)(conv3): Conv2d(128, 512, kernel_size&＃61;(1, 1), stride&＃61;(1, 1), bias&＃61;False)(bn3): BatchNorm2d(512, eps&＃61;1e-06, momentum&＃61;0.1, affine&＃61;True, track_running_stats&＃61;True)(act3): ReLU(inplace&＃61;Truedef forward(self, x, x_t&＃61;None, return_x_2&＃61;True):residual &＃61; x # (b,256, 56, 56)x &＃61; self.conv1(x)x &＃61; self.bn1(x)if self.drop_block is not None:x &＃61; self.drop_block(x)x &＃61; self.act1(x)self.conv2(x &＃43; x_t)x &＃61; self.conv2(x) if x_t is not None else x &＃61; self.conv2(x)x &＃61; self.bn2(x)if self.drop_block is not None:x &＃61; self.drop_block(x)x2 &＃61; self.act2(x)x &＃61; self.conv3(x2)x &＃61; self.bn3(x)if self.drop_block is not None:x &＃61; self.drop_block(x)if self.drop_path is not None:x &＃61; self.drop_path(x)if self.res_conv:residual &＃61; self.residual_conv(residual)residual &＃61; self.residual_bn(residual)x &＃43;&＃61; residualx &＃61; self.act3(x)return x
5. 分类阶段

在i&＃61;2-12时&＃xff0c;输出维度依次为:
(1) x :(b,256,56,56) (b,512,28,28) (b,1024,14,14) (b,1024,7,7)
(2)x_t: (b,197,384) …(b,197,384)
x:(b,1024,7,7) —avgPool–>(b,1024)----conv_cls_head—>(b,1000)
x_t: (b,197,384)—取第一维—>&＃xff08;b,1,384&＃xff09;—trans_cls_head–>(b,1000)
最后结果取两个的平均

推荐阅读

int
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
int
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
utf-8
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
int
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
int
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
int
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
int
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
int
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
int
Html5-Canvas实现简易的抽奖转盘效果

本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ... [详细]

蜡笔小新 2023-12-13 06:02:20
int
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
int
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
int
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
replace
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
int
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
int
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41

us0569398

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章