【综述】attention机制在CV中的回顾

作者：手机用户2502935633 | 来源：互联网 | 2023-09-11 14:36

一、写在前面从网络结构本身的角度出发，可以从以下四个维度来提升卷积神经网络的性能，分别是：深度（ResNet）

一、写在前面

从网络结构本身的角度出发，可以从以下四个维度来提升卷积神经网络的性能，分别是：深度（ResNet）、宽度（WideResNet）、基数（ResNeXt）和注意力（SENet）。一般来说，网络越深，所提取到的特征就越抽象；网络越宽，其特征就越丰富；基数越大，越能发挥每个卷积核独特的作用；而注意力则是一种能够强化重要信息抑制非重要信息的方法，也是本文重点阐述的对象。

注意力（attention）其实是一个非常常见，但是又会被忽略的事实。如图，往往你会盯着婴儿脸，文字，毛巾等高频信息，其他的自然成为了一个背景（background）信息。

preview

Encoder-Decoder框架

要了解深度学习中的注意力模型，就不得不先谈Encoder-Decoder框架，因为目前大多数注意力模型附着在Encoder-Decoder框架下，当然，其实注意力模型可以看作一种通用的思想，本身并不依赖于特定框架，这点需要注意。

Encoder-Decoder框架可以看作是一种深度学习领域的研究模式，应用场景异常广泛。如图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。通过在编码时，给编码器的参数添加不同的权值使得在解码（decoder）时注意到某些信息，从而实现注意力机制-能够忽略无关信息而关注重点信息。

详细参考动手深度学习 ch10.9-ch10.12

注意力在CV方面研究进展简介

注意力机制，其本质是一种通过网络自主学习出的一组权重系数，并以“动态加权”的方式来强调我们所感兴趣的区域同时抑制不相关背景区域的机制。在计算机视觉领域中，注意力机制可以大致分为两大类：强注意力和软注意力[1]。

强注意力与软注意力不同点在于，首先强注意力是更加关注点，也就是图像中的每个点都有可能延伸出注意力，同时强注意力是一个随机的预测过程，更强调动态变化。当然，最关键是强注意力是一个不可微的注意力，训练过程往往是通过增强学习(reinforcement learning)来完成的。

与之相反的是，软注意力是处处可微的，即能够通过基于梯度下降法的神经网络训练所获得，因此其应用相对来说也比较广泛。软注意力按照不同维度（如通道、空间、时间、类别等）出发，目前主流的注意力机制可以分为以下三种：通道注意力、空间注意力以及自注意力（Self-attention）。

空间域（Spatial Domain）

设计思路：

Spatial Transformer Networks（STN）模型是15年NIPS上的文章，这篇文章通过注意力机制，将原始图片中的空间信息变换到另一个空间中并保留了关键信息。

这篇文章的思想非常巧妙，因为卷积神经网络中的池化层（pooling layer）直接用一些max pooling 或者average pooling 的方法，将图片信息压缩，减少运算量提升准确率。

但是这篇文章认为之前pooling的方法太过于暴力，直接将信息合并会导致关键信息无法识别出来，所以提出了一个叫空间转换器（spatial transformer）的模块，将图片中的的空间域信息做对应的空间变换，从而能将关键的信息提取出来。

比如这个直观的实验图：

(a)列是原始的图片信息，其中第一个手写数字7没有做任何变换，第二个手写数字5，做了一定的旋转变化，而第三个手写数字6，加上了一些噪声信号；

(b)列中的彩色边框是学习到的spatial transformer的框盒（bounding box），每一个框盒其实就是对应图片学习出来的一个spatial transformer；

(c)列中是通过spatial transformer转换之后的特征图，可以看出7的关键区域被选择出来，5被旋转成为了正向的图片，6的噪声信息没有被识别进入。

最终可以通过这些转换后的特征图来预测出（d）列中手写数字的数值。

spatial transformer其实就是注意力机制的实现，因为训练出的spatial transformer能够找出图片信息中需要被关注的区域，同时这个transformer又能够具有旋转、缩放变换的功能，这样图片局部的重要信息能够通过变换而被框盒提取出来。

Spatial Transformer由三部分组成

Localisation net
Localisation net输入为一张Feature map: $U\in R^{H \times W \times C}$

也就是说,对于输出Feature map的每一个位置,我们对其进行空间变换(仿射变换)寻找其对应与输入Feature map的空间位置,到目前为止,如果这一步的输出为整数值(往往不可能),也就是经过变换后的坐标可以刚好对应原图的某些空间位置,那么ST的任务便完成了,既输入图像在Localisation net和Grid generator后先后的确定了空间变换方式和映射关系。

但是一些读者看到这可能有一个疑问,这个嵌入的ST网路如何通过反向传播进行参数的训练?没错,如果仅仅包含上述的两个过程,那么ST网络是无法进行反向传播的,原因就是我们上述的操作并不是直接对Feature map进行操作,而是对feature position进行计算,从而寻找输入到输出的对应关系。而feature position对应到feature score是离散的,即feature position进行微小变化时,输出O[x+△x,y]值是无法求解的(图像的计算机存储为离散的矩阵存储)。这里论文作者使用了笔者认为STN最精髓算法,双线性插值算法。

Sampler
经过以上的两步操作后,输出的Feature map上每一个像素点都会通过空间变换对应到输入Feature map的某个像素位置,但是由于feature score对于feature position的偏导数无法计算,因而我们需要构造一种position->score的映射,且该映射具有可导的性质,从而满足反向传播的条件。

通道域

通道域[2]的注意力机制原理很简单，我们可以从基本的信号变换的角度去理解。信号系统分析里面，任何一个信号其实都可以写成正弦波的线性组合，经过时频变换之后，时域上连续的正弦波信号就可以用一个频率信号数值代替了。

首先最左边是原始输入图片特征X，然后经过变换，比如卷积变换 $F_{tr}$

其中：

X input,U 经过卷积后的output,

激励

其中：

$\delta$

这一步其实就是一个放缩的过程，不同通道的值乘上不同的权重，从而可以增强对关键通道域的注意力。

混合域

了解前两种注意力域的设计思路后，简单对比一下。首先，空间域的注意力是忽略了通道域中的信息，将每个通道中的图片特征同等处理，这种做法会将空间域变换方法局限在原始图片特征提取阶段，应用在神经网络层其他层的可解释性不强。

而通道域的注意力是对一个通道内的信息直接全局平均池化，而忽略每一个通道内的局部信息，这种做法其实也是比较暴力的行为。所以结合两种思路，就可以设计出混合域的注意力机制模型[3]。

设计思路：

[3]这篇文章中提出的注意力机制是与深度残差网络(Deep Residual Network)相关的方法，基本思路是能够将注意力机制应用到ResNet中，并且使网络能够训练的比较深。

文章中注意力的机制是软注意力基本的加掩码(mask)机制，但是不同的是，这种注意力机制的mask借鉴了残差网络的想法，不只根据当前网络层的信息加上mask，还把上一层的信息传递下来，这样就防止mask之后的信息量过少引起的网络层数不能堆叠很深的问题。

正如之前说的，[3]中提出的注意力mask，不仅仅只是对空间域或者通道域注意，这种mask可以看作是每一个特征元素（element）的权重。通过给每个特征元素都找到其对应的注意力权重，就可以同时形成了空间域和通道域的注意力机制。

很多人看到这里就会有疑问，这种做法应该是从空间域或者通道域非常自然的一个过渡，怎么做单一域注意力的人都没有想到呢？原因有：

如果你给每一个特征元素都赋予一个mask权重的话，mask之后的信息就会非常少，可能直接就破坏了网络深层的特征信息；

另外，如果你可以加上注意力机制之后，残差单元（Residual Unit）的恒等映射（identical mapping）特性会被破坏，从而很难训练。

所以该文章的注意力机制的创新点在于提出了残差注意力学习(residual attention learning)，不仅只把mask之后的特征张量作为下一层的输入，同时也将mask之前的特征张量作为下一层的输入，这时候可以得到的特征更为丰富，从而能够更好的注意关键特征。

模型结构:

文章中模型结构是非常清晰的，整体结构上，是三阶注意力模块(3-stage attention module)。每一个注意力模块可以分成两个分支(看stage2)，上面的分支叫主分支(trunk branch)，是基本的残差网络(ResNet)的结构。而下面的分支是软掩码分支(soft mask branch)，而软掩码分支中包含的主要部分就是残差注意力学习机制。通过下采样(down sampling)和上采样(up sampling)，以及残差模块(residual unit)，组成了注意力的机制。

模型结构中比较创新的残差注意力机制是：

三重注意力【7】待更新

时间域注意力

这个概念其实比较大，因为计算机视觉只是单一识别图片的话，并没有时间域这个概念，但是[4]这篇文章中，提出了一种基于递归神经网络（Recurrent Neural Network，RNN）的注意力机制识别模型。

RNN模型比较适合的场景是数据具有时序特征，比如使用RNN产生注意力机制做的比较好的是在自然语言处理的问题上。因为自然语言处理的是文本分析，而文本产生的背后其实是有一个时序上的关联性，比如一个词之后还会跟着另外一个词，这就是一个时序上的依赖关联性。

而图片数据本身，并不具有天然的时序特征，一张图片往往是一个时间点下的采样。但是在视频数据中，RNN就是一个比较好的数据模型，从而能够使用RNN来产生识别注意力。

特意将RNN的模型称之为时间域的注意力，是因为这种模型在前面介绍的空间域，通道域，以及混合域之上，又新增加了一个时间的维度。这个维度的产生，其实是基于采样点的时序特征。

Recurrent Attention Model [4]中将注意力机制看成对一张图片上的一个区域点的采样，这个采样点就是需要注意的点。而这个模型中的注意力因为不再是一个可以微分的注意力信息，因此这也是一个强注意力（hard attention）模型。这个模型的训练是需要使用增强学习（reinforcementlearning）来训练的，训练的时间更长。

这个模型更需要了解的并不是RNN注意力模型，因为这个模型其实在自然语言处理中介绍的更详细，更需要了解的是这个模型的如何将图片信息转换成时序上的采样信号的：

这个是模型中的关键点，叫Glimpse Sensor，我翻译为扫视器，这个sensor的关键点在于先确定好图片中需要关注的点（像素），这时候这个sensor开始采集三种信息，信息量是相同的，一个是非常细节（最内层框）的信息，一个是中等的局部信息，一个是粗略的略缩图信息。

这三个采样的信息是在 $l_{t-1}$

结构：

通道注意力

SKnet[6] 待更新

基数维度注意力（待更新）

ResNeSt[8]，号称ResNet的强化版，是由李沐团队张航博士所提出来的，作者从基数维度出发，将注意力的思想融入到多分支卷积结构当中，来解决传统CNN感受野受限以及却反跨通道信息交互的问题。ResNeSt整体延续了“Split-Transfore-Merge”结构，有点SK的味道，综合SENet、SKNet与ResNeXt三者的思想。ResNeSt所呈现的效果确实非常惊艳的，在ADE20K、MS-COCO等数据集上屠榜，碾压其他的手动网络架构，没有额外的计算开销，代码也不是很复杂。

重识别（待更新）

Relation-Aware Global Attention是中科大&微软亚洲研究院发表于CVPR 2020上针对行人重识别任务所提出的一种注意力方法。本文提倡的观点是，要直观地判断一个特征节点是否重要，就应该知道全局范围的特性，这样便可以通过得到进行决策所需要的关系信息，来更好地探索每个特征节点各自的全局关系，从而更好地学习注意力。

Reference：

[1] Kelvin Xu,Jimmy Lei Ba ,Ryan Kiros ,Kyunghyun Cho ,Aaron Courville ,"Show, Attend and Tell: Neural Image Caption Generation with Visual Attention".2016

[2] Hu, Jie, Li Shen, and Gang Sun."Squeeze-and-excitation networks." arXiv preprintarXiv:1709.01507 .2017

[3] Wang, Fei, et al. "Residual attentionnetwork for image classification." arXiv preprint arXiv:1704.06904 .2017

[4] Mnih, Volodymyr, Nicolas Heess, and AlexGraves. "Recurrent models of visual attention." Advances inneural information processing systems. 2014.

[5] Zequn Qin1 , Pengyi Zhang1 , Fei Wu1,2, Xi Li1,2."FcaNet: Frequency Channel Attention Networks".2020

[6] Xiang Li, Wenhai Wang, Xiaolin Hu and Jian Yang "Selective Kernel Networks".2019

[7] Diganta Misra,Trikay Nalamada,Ajay Uppili Arasanipalai,Qibin Hou "Rotate to Attend: Convolutional Triplet Attention Module".2020

[8] Hang Zhang, Chongruo Wu? , Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang, Yue Sun, Tong He, Jonas Mueller, R. Manmatha, Mu Li, and Alexander Smola "ResNeSt: Split-Attention Networks ".2020

Deep Learning Paper Implementations: Spatial Transformer Networks

io

神经网络

深度

ide

深度学习

dom

transform

ip

图片

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

bit
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新   2024-11-15 14:50:50

string
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新   2024-11-14 16:26:25

string
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新   2024-11-12 16:31:32

less
POJ 2482 星空中的星星：利用线段树与扫描线算法解决

在《POJ 2482 星空中的星星》问题中，通过运用线段树和扫描线算法，可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据，还能确保时间复杂度的最优性，适用于各种复杂的星空模拟场景。 ... [详细]

蜡笔小新   2024-11-09 12:09:08

io
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新   2024-11-07 12:41:08

less
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新   2024-11-07 06:55:33

io
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新   2024-11-13 21:09:41

hash
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新   2024-11-13 09:49:14

process
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新   2024-11-10 08:42:08

bit
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新   2024-11-09 12:37:55

process
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新   2024-11-09 11:59:38

io
【整理】JavaScript中DOM操作全面解析与实践指南

本文全面解析了JavaScript中的DOM操作，并提供了详细的实践指南。DOM节点（Node）通常代表一个标签、文本或HTML属性，每个节点都具有一个nodeType属性，用于标识其类型。文章深入探讨了DOM节点的创建、查询、修改和删除等操作，结合实际案例，帮助读者更好地理解和掌握DOM编程技术。 ... [详细]

蜡笔小新   2024-11-07 19:20:50

io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新   2024-11-05 14:24:36

io
优化后的标题：hCalendar微格式：深入解析事件与时间、地点相关的活动标记方法

本文深入探讨了 hCalendar 微格式在事件与时间、地点相关活动标记中的应用。作为微格式系列文章的第四篇，前文已分别介绍了 rel 属性用于定义链接关系、XFN 微格式增强链接的人际关系描述以及 hCard 微格式对个人和组织信息的描述。本次将重点解析 hCalendar 如何通过结构化数据标记，提高事件信息的可读性和互操作性。 ... [详细]

蜡笔小新   2024-11-04 17:57:52

python
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新   2024-11-03 12:48:59

手机用户2502935633

这个家伙很懒，什么也没留下！

Tags | 热门标签

fetch

merge

import

join

actionscrip

usb

int

cPlusPlus

php7

iostream

object

perl

yaml

数组

go

get

io

window

python

hashset

process

vbscript

dll

less

jar

cookie

bit

heap

hash

string

RankList | 热门文章

1【手写简易浏览器】htmlparser篇

2Unity手游之路<七>角色控制器

3SQL 常用技巧：如何同时取同一列的多个值

4招聘怎样的员工

5c语言连续查找不退出_C语言链表实例玩转链表

6golang反射,golang反射性能

7php实现随机数组中,如何用PHP实现在数组中随机取出指定个数的子集

8python开发pc软件_程序员带你十天快速入门Python,玩转电脑软件开发（二）

9transform初学习

10[Alpha阶段]第七次Scrum Meeting

11c语言修改pdf文件内容,PDF如何编辑，PDF文件怎么修改文字

12PAT A 1040 Longest Symmetric String (25 分)

13linux 挂载命令

14冲突_访问冲突新c ++结构

15多个JDK该如何配置