【Transformers论文】GlobalContextVisionTransformers

作者：书友66599567 | 来源：互联网 | 2023-08-07 09:29

论文地址：https:arxiv.orgabs2206.09959https:arxiv.orgabs2206.09959代码地址：GitHub-N

论文地址&＃xff1a;https://arxiv.org/abs/2206.09959https://arxiv.org/abs/2206.09959

代码地址&＃xff1a;

GitHub - NVlabs/GCVit: Official PyTorch implementation of Global Context Vision TransformersOfficial PyTorch implementation of Global Context Vision Transformers - GitHub - NVlabs/GCVit: Official PyTorch implementation of Global Context Vision Transformershttps://github.com/NVlabs/GCViT

作者提出了全局上下文Vision Transformer(GCViT)&＃xff0c;这是一种提高参数和计算利用率的新架构。提出的方法利用全局上下文自注意模块&＃xff0c;与局部自注意相结合&＃xff0c;有效地建模长期和短期空间交互&＃xff0c;而不需要昂贵的操作。

在这项工作中&＃xff0c;作者引入Global Context&＃xff08;GC&＃xff09;ViT 网络。提出了一个由局部和全局自注意模块组成的分层ViT架构。在每个阶段&＃xff0c;作者使用修改的fused inverted residual 模块来计算全局query token。作者称之为Fused-MBConv 模块&＃xff0c;它包含来自不同图像区域的全局上下文信息。本地自注意模块负责对short-range信息进行建模&＃xff0c;而全局query token 在所有全局自注意模块之间共享&＃xff0c;以与本地key和value进行交互。

论文主要贡献&＃xff1a;

一种新的分层Transformer模型&＃xff0c;称为GCViT&＃xff0c;它可以作为各种计算机视觉任务的通用主干网络&＃xff0c;如分类、检测、实例分割&＃xff1b;
一种新颖而简单的设计&＃xff0c;由全局自注意和令牌生成模块组成&＃xff0c;允许通过捕获全局上下文信息来建模长期依赖关系&＃xff0c;从而消除了对高度复杂或复杂操作的需要&＃xff1b;
如图1所示&＃xff0c;实验结果SOTA。

网络结构&＃xff1a;

GC ViT 结构

网络结构如图2所示。与之前的一些Transformer架构类似&＃xff0c;使用一个层次框架&＃xff0c;通过减少空间维度&＃xff0c;同时扩大嵌入维数&＃xff0c;分别获得几个分辨率&＃xff08;称为阶段&＃xff09;的特征表示。

首先输入图像的分辨率为H X W X 3 ,通过应用一个3×3的卷积层和适当的填充来获得重叠(overlapping)的patch。然后将patch投影到C维嵌入空间中。每个GCViT阶段都由交替的局部和全局自注意模块组成&＃xff0c;以提取空间特征。两者都在像Swin Transformer 这样的 local windows 中运行&＃xff0c;然而&＃xff0c;全局自注意访问 Global Toke Generator (GTG)提取的全局特征。GTG是一个类似于cnn的模块&＃xff0c;它在每个阶段只从整个图像中提取一次特征。每个阶段后增加一个下采样模块&＃xff0c;空间分辨率减少一半。生成的特征通过平均池化和线性层传递&＃xff0c;以为下游任务创建嵌入。

Downsampling

从CNN模型中借用了空间特征收缩的概念&＃xff0c;该模型在降维的同时施加了局部性偏差和跨通道通信。

class ReduceSize(nn.Module):def __init__(self, dim,norm_layer&＃61;nn.LayerNorm,keep_dim&＃61;False):super().__init__()self.conv &＃61; nn.Sequential(nn.Conv2d(dim, dim, 3, 1, 1,groups&＃61;dim, bias&＃61;False),nn.GELU(),SE(dim, dim),nn.Conv2d(dim, dim, 1, 1, 0, bias&＃61;False),)if keep_dim:dim_out &＃61; dimelse:dim_out &＃61; 2*dimself.reduction &＃61; nn.Conv2d(dim, dim_out, 3, 2, 1, bias&＃61;False)self.norm2 &＃61; norm_layer(dim_out)self.norm1 &＃61; norm_layer(dim)def forward(self, x):x &＃61; x.contiguous()x &＃61; self.norm1(x)x &＃61; x.permute(0, 3, 1, 2)x &＃61; x &＃43; self.conv(x)x &＃61; self.reduction(x).permute(0, 2, 3, 1)x &＃61; self.norm2(x)return x

Attention

多头自注意是GCViT体系结构中从图像中提取语义信息的核心计算算子。GCViT由局部和全局的自注意模块组成&＃xff0c;如图4所示。

Global Query Generator

作者提出包含跨整个输入特征图的信息的全局查询标记&＃xff08;global query tokens&＃xff09;&＃xff0c;以便与局部键keys和值values特征进行交互。如图5所示&＃xff1a;

class FeatExtract(nn.Module):def __init__(self, dim, keep_dim&＃61;False):super().__init__()self.conv &＃61; nn.Sequential(nn.Conv2d(dim, dim, 3, 1, 1,groups&＃61;dim, bias&＃61;False),nn.GELU(),SE(dim, dim),nn.Conv2d(dim, dim, 1, 1, 0, bias&＃61;False),)if not keep_dim:self.pool &＃61; nn.MaxPool2d(kernel_size&＃61;3, stride&＃61;2, padding&＃61;1)self.keep_dim &＃61; keep_dimdef forward(self, x):x &＃61; x.contiguous()x &＃61; x &＃43; self.conv(x)if not self.keep_dim:x &＃61; self.pool(x)return x

Global Self-Attention

图4展示了这篇论文主要贡献的思想。

Local MSA&＃xff1a;

class WindowAttention(nn.Module):def __init__(self,dim,num_heads,window_size,qkv_bias&＃61;True,qk_scale&＃61;None,attn_drop&＃61;0.,proj_drop&＃61;0.,):super().__init__()window_size &＃61; (window_size,window_size)self.window_size &＃61; window_sizeself.num_heads &＃61; num_headshead_dim &＃61; dim // num_headsself.scale &＃61; qk_scale or head_dim ** -0.5self.relative_position_bias_table &＃61; nn.Parameter(torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))coords_h &＃61; torch.arange(self.window_size[0])coords_w &＃61; torch.arange(self.window_size[1])coords &＃61; torch.stack(torch.meshgrid([coords_h, coords_w]))coords_flatten &＃61; torch.flatten(coords, 1)relative_coords &＃61; coords_flatten[:, :, None] - coords_flatten[:, None, :]relative_coords &＃61; relative_coords.permute(1, 2, 0).contiguous()relative_coords[:, :, 0] &＃43;&＃61; self.window_size[0] - 1relative_coords[:, :, 1] &＃43;&＃61; self.window_size[1] - 1relative_coords[:, :, 0] *&＃61; 2 * self.window_size[1] - 1relative_position_index &＃61; relative_coords.sum(-1)self.register_buffer("relative_position_index", relative_position_index)self.qkv &＃61; nn.Linear(dim, dim * 3, bias&＃61;qkv_bias)self.attn_drop &＃61; nn.Dropout(attn_drop)self.proj &＃61; nn.Linear(dim, dim)self.proj_drop &＃61; nn.Dropout(proj_drop)trunc_normal_(self.relative_position_bias_table, std&＃61;.02)self.softmax &＃61; nn.Softmax(dim&＃61;-1)def forward(self, x, q_global):B_, N, C &＃61; x.shapeqkv &＃61; self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)q, k, v &＃61; qkv[0], qkv[1], qkv[2]q &＃61; q * self.scaleattn &＃61; (q &＃64; k.transpose(-2, -1))relative_position_bias &＃61; self.relative_position_bias_table[self.relative_position_index.view(-1)].view(self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)relative_position_bias &＃61; relative_position_bias.permute(2, 0, 1).contiguous()attn &＃61; attn &＃43; relative_position_bias.unsqueeze(0)attn &＃61; self.softmax(attn)attn &＃61; self.attn_drop(attn)x &＃61; (attn &＃64; v).transpose(1, 2).reshape(B_, N, C)x &＃61; self.proj(x)x &＃61; self.proj_drop(x)return

Global MSA&＃xff1a;

class WindowAttentionGlobal(nn.Module):def __init__(self, dim,num_heads,window_size,qkv_bias&＃61;True,qk_scale&＃61;None,attn_drop&＃61;0.,proj_drop&＃61;0.,):super().__init__()window_size &＃61; (window_size,window_size)self.window_size &＃61; window_sizeself.num_heads &＃61; num_headshead_dim &＃61; dim // num_headsself.scale &＃61; qk_scale or head_dim ** -0.5self.relative_position_bias_table &＃61; nn.Parameter(torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))coords_h &＃61; torch.arange(self.window_size[0])coords_w &＃61; torch.arange(self.window_size[1])coords &＃61; torch.stack(torch.meshgrid([coords_h, coords_w]))coords_flatten &＃61; torch.flatten(coords, 1)relative_coords &＃61; coords_flatten[:, :, None] - coords_flatten[:, None, :]relative_coords &＃61; relative_coords.permute(1, 2, 0).contiguous()relative_coords[:, :, 0] &＃43;&＃61; self.window_size[0] - 1relative_coords[:, :, 1] &＃43;&＃61; self.window_size[1] - 1relative_coords[:, :, 0] *&＃61; 2 * self.window_size[1] - 1relative_position_index &＃61; relative_coords.sum(-1)self.register_buffer("relative_position_index", relative_position_index)self.qkv &＃61; nn.Linear(dim, dim * 2, bias&＃61;qkv_bias)self.attn_drop &＃61; nn.Dropout(attn_drop)self.proj &＃61; nn.Linear(dim, dim)self.proj_drop &＃61; nn.Dropout(proj_drop)trunc_normal_(self.relative_position_bias_table, std&＃61;.02)self.softmax &＃61; nn.Softmax(dim&＃61;-1)def forward(self, x, q_global):B_, N, C &＃61; x.shapeB &＃61; q_global.shape[0]kv &＃61; self.qkv(x).reshape(B_, N, 2, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)k, v &＃61; kv[0], kv[1]q_global &＃61; q_global.repeat(B_//B, 1, 1, 1)q &＃61; q_global.reshape(B_, self.num_heads, N, C // self.num_heads)q &＃61; q * self.scaleattn &＃61; (q &＃64; k.transpose(-2, -1))relative_position_bias &＃61; self.relative_position_bias_table[self.relative_position_index.view(-1)].view(self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)relative_position_bias &＃61; relative_position_bias.permute(2, 0, 1).contiguous()attn &＃61; attn &＃43; relative_position_bias.unsqueeze(0)attn &＃61; self.softmax(attn)attn &＃61; self.attn_drop(attn)x &＃61; (attn &＃64; v).transpose(1, 2).reshape(B_, N, C)x &＃61; self.proj(x)x &＃61; self.proj_drop(x)return x

几种模型结构配置&＃xff1a;

实验结果&＃xff1a;

推荐阅读

spring
idea启动springmvc项目时报找不到类的解决方法

这篇文章主要介绍了idea启动springmvc项目时报找不到类的解决方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值, ... [详细]

蜡笔小新 2024-09-28 10:12:18
import
自定义RecyclerView添加EmptyView

你知道RecyclerView里没有Em ... [详细]

蜡笔小新 2024-09-30 15:31:47
int
局限性_Scrum框架的局限性

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Scrum框架的局限性相关的知识，希望对你有一定的参考价值。在很多工作坊的讨论中， ... [详细]

蜡笔小新 2024-09-30 14:41:28
int
delphi控件大全

本文章已收录于：delphi控件查询：http:www.torry.nethttp:www.jrsoftware.orgTb97最有名的工具条(ToolBar) ... [详细]

蜡笔小新 2024-09-30 11:49:36
import
在JAVA代码的不同部分多次使用数组列表

我正在使用数组列表通过构建一个交互式菜单供用户选择来存储来自用户输入的值。到目前为止，我的两个选择是为用户提供向列表输入数据和读取列表的全部内容。到目前为止，我创建的代码由两个类组成。 ... [详细]

蜡笔小新 2024-09-30 10:25:00
int
Android 自定义控件基础 canvas paint

1、首先说一下canvas类：ClassOverviewTheCanvasclassholdsthedrawcalls.Todrawsomething,youne ... [详细]

蜡笔小新 2024-09-30 07:06:19
int
java – 什么是notifyItemRangeChanged(0,this.data.size());在这个例子中,它是如何工作的？

我理解ViewHolder的onBindViewHolder如何工作,但是我不清楚notifyItemRangeChanged(0,this.data.size())如何;适用于此示例以及它的确 ... [详细]

蜡笔小新 2024-09-29 20:59:44
int
如何用js 实现依赖注入的思想，后端框架思想搬到前端来

如何用js实现依赖注入的思想，后端框架思想搬到前端来-大家在做些页面的时候，很多都是用ajax实现的，在显示的时候有很多表单提交的add或者update操作，显然这样很烦，突然想到 ... [详细]

蜡笔小新 2024-09-29 20:11:07
int
外层|条件下_MySQL还能这样玩第五篇之视图应该这样玩

篇首语：本文由编程笔记#小编为大家整理，主要介绍了MySQL还能这样玩---第五篇之视图应该这样玩相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-29 16:30:33
main
ajax自动加载列表页,jQuery+ajax实现滚动到页面底部自动加载图文列表效果(类似图片懒加载)...

本文实例讲述了jQueryajax实现滚动到页面底部自动加载图文列表效果。分享给大家供大家参考，具体如下：phttp:www.w3.orgTRxht ... [详细]

蜡笔小新 2024-09-29 14:45:53
int
图像处理(7) : 边缘检测

边缘检测是图形图像处理、计算机视觉和机器视觉中的一个基本工具，通常用于特征提取和特征检测，旨在检测一张数字图像中有明显变化的边缘或者不连续的区域 ... [详细]

蜡笔小新 2024-09-28 20:28:40
int
JavaScript在网页设计中的嵌入应用方法是什么

本篇内容主要讲解“JavaScript在网页设计中的嵌入应用方法是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小 ... [详细]

蜡笔小新 2024-09-28 12:59:54
int
Lunix历史及如何学习

1.Lunix是什么1.1Lunix是操作系统还是应用程序Lunix是一套操作系统，它提供了一个完整的操作系统当中最底层的硬件控制与资源管理的完整架构， ... [详细]

蜡笔小新 2024-09-27 20:30:30
int
Window Service 创建：在后台执行一个服务，可定时做一些操作，如轮询数据库，定时发邮件 .

1，Windows服务应用程序是一种需要长期运行的应用程序，它对于服务器环境特别适合。它没有用户界面，并且也不会产生任何可视输出。任何用户 ... [详细]

蜡笔小新 2024-09-27 18:43:07
int
Java应用：编写高级JavaScript应用代码

1、创建高级对象使用构造函数来创建对象构造函数是一个函数，调用它来例示并初始化特殊类型的对象。可以使用new关键字来调用一个构造函数。下面给出了使用构造函数的新示例。 ... [详细]

蜡笔小新 2024-09-27 16:12:55

书友66599567

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章