当前位置: 开发笔记 > 编程语言 > 正文

董超团队提出VapSR：基于超大感受野注意力的超分辨率模型

作者：张佩君宣真威任 | 来源：互联网 | 2023-07-29 14:45

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：AIWalkerpaperhttp

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

点击进入—> CV 微信技术交流群

转载自&＃xff1a;AIWalker

paper https://arxiv.org/abs/2210.05960
code https://github.com/zhoumumu/VapSR

注意力机制是深度学习领域非常重要的一个研究方向&＃xff0c;在图像超分领域也有不少典型的应用案例&＃xff0c;比如基于通道注意力构建的RCAN&＃xff0c;基于二阶注意力机制构建的SAN&＃xff0c;基于像素注意力机制构建的PAN&＃xff0c;基于Transformer自注意力机制构建的SwinIR&＃xff0c;基于多尺度大核注意力的MAN等。

本文则以PAN为蓝本&＃xff0c;对其进行逐步改进以期达到更少的参数量、更高的超分性能。该方案具体包含以下几个关键点&＃xff1a;

提升注意力分割的感受野&＃xff0c;类似大核卷积注意力VAN&＃xff1b;
将稠密卷积核替换为深度分离卷积&＃xff0c;进一步降低参数量&＃xff1b;
引入像素规范化(Pixel Normalization)技术&＃xff0c;其实就是Layer Normalization&＃xff0c;但出发点不同。

上述关键技术点为注意力机制的设计提供了一个清晰的演变路线&＃xff0c;最终得到了本文的VapSR&＃xff0c;即大感受像素注意力网络(VAst-receptive-field Pixel attention Network)。

实验结果表明&＃xff1a;相比其他轻量超分网络&＃xff0c;VapSR具有更少的参数量。比如&＃xff0c;项目IMDB与RFDN&＃xff0c;VapSR仅需21.68%、28.18%的参数即可取得与之相当的性能。

本文动机

通过引入像素注意力&＃xff0c;PAN在大幅降低参数量的同时取得了非常优秀的性能。相比通道注意力与空域注意力&＃xff0c;像素注意力是一种更广义的注意力形式&＃xff0c;为进一步的探索提供了一个非常好的基线。

受启发于自注意力的发展&＃xff0c;我们认为&＃xff1a;基于卷积操作的注意力仍有进一步改进的空间。因此&＃xff0c;作者通过以下三个像素注意力中的设计原则展示了改善超分注意力的过程&＃xff1a;

首先&＃xff0c;在注意力分支引入大核卷积具有明显的优势&＃xff1b;
其次&＃xff0c;深度分离卷积可以降低大核卷积导致的巨大计算复杂度问题&＃xff1b;
最后&＃xff0c;引入像素规范化操作让训练更高效、更稳定。

**Large Kernel **以上图i中的baseline为基础&＃xff0c;作者首先对注意力分支进行感受野扩增&＃xff1a;将提升到(将图示ii)&＃xff0c;性能提升0.15dB&＃xff0c;但参数量从846K提升到了4123K。

Parameter Reduction 为降低参数量&＃xff0c;我们尝试尽可能移除相对不重要的部分。作者提出了三个方案&＃xff1a;(1) 将非注意力分支的卷积尺寸从下调到&＃xff1b;(2) 将大核卷积注意力分支替换为深度深度分离卷积&＃xff1b;(3) 将深度分离卷积中的深度卷积进行分解为深度卷积&＃43;带扩张因子的深度卷积(该机制可参考下图&＃xff0c;将卷积拆分为&＃43;&＃xff0c;其中后者的扩张因子为3)。此时&＃xff0c;模型性能变为28.48dB&＃xff0c;但参数量降到了240K&＃xff0c;参数量基本被压缩到了极限。

Pixel Normalization(PN) 注意力机制的元素乘操作会导致训练不稳定问题&＃xff1a;小学习率收敛不够好&＃xff0c;大学习率又会出现梯度异常。前面的注意力改进导致所得方案存在性能下降问题。为解决该问题&＃xff0c;作者经深入分析后提出了像素规范化技术(可参考下图不同规范化技术的可视化对比)。

假设输入特征为&＃xff0c;第i个像素的特征均值与方差可以描述如下&＃xff1a;

那么&＃xff0c;像素规范化可以表示为&＃xff1a;

当引入PN后&＃xff0c;模型的性能取得了显著的提升&＃xff0c;达到了28.92dB&＃xff0c;参数量仅为241K。

Switch Attention to Middle 在上述基础上&＃xff0c;作者进一步将注意力的位置进行了调整&＃xff0c;放到了两个卷积中间。此时&＃xff0c;模型性能得到了0.03dB提升&＃xff0c;达到了28.95dB&＃xff0c;参数量仍为241K。

本文方案

前面的探索主要聚焦在微观层面&＃xff0c;基于此&＃xff0c;作者进一步在宏观层面进行了更多设计与提炼&＃xff0c;进而构建了VapSR&＃xff0c;取得了更佳的性能&＃xff0c;同时具有更少的参数量。

上图给出了所提VapSR架构示意图&＃xff0c;延续了常规轻量方案的设计思路&＃xff1a;

浅层特征&＃xff1a;&＃xff1b;
非线性映射&＃xff1a;;
图像重建&＃xff1a;

VAB模块在前面探索得到的模块上进行了微调&＃xff1a;(1) 主要是将模块输入与输出通道数从64减少到了48&＃xff0c;保持中间注意力部分的通道数仍为64&＃xff1b;(2) 将注意力分支深度扩张卷积(有时也称之为空洞卷积)调整为深度扩张卷积&＃xff0c;此时感受野为&＃xff1b;(3) 调整了注意力分支三个卷积的顺序&＃xff0c;将卷积移到最前面。对于VapSR-S&＃xff0c;作者进一步将部分从卷积调整为组卷积(group&＃61;2)&＃xff0c;该操作可以进一步降低参数量。

class Attention(nn.Module):def __init__(self, dim):super().__init__()self.pointwise &＃61; nn.Conv2d(dim, dim, 1)self.depthwise &＃61; nn.Conv2d(dim, dim, 5, padding&＃61;2, groups&＃61;dim)self.depthwise_dilated &＃61; nn.Conv2d(dim, dim, 5, 1, padding&＃61;6, groups&＃61;dim, dilation&＃61;3)def forward(self, x):u &＃61; x.clone()attn &＃61; self.pointwise(x)attn &＃61; self.depthwise(attn)attn &＃61; self.depthwise_dilated(attn)return u * attnclass VAB(nn.Module):def __init__(self, d_model, d_atten):super().__init__()self.proj_1 &＃61; nn.Conv2d(d_model, d_atten, 1)self.activation &＃61; nn.GELU()self.atten_branch &＃61; Attention(d_atten)self.proj_2 &＃61; nn.Conv2d(d_atten, d_model, 1)self.pixel_norm &＃61; nn.LayerNorm(d_model)default_init_weights([self.pixel_norm], 0.1)def forward(self, x):shorcut &＃61; x.clone()x &＃61; self.proj_1(x)x &＃61; self.activation(x)x &＃61; self.atten_branch(x)x &＃61; self.proj_2(x)x &＃61; x &＃43; shorcutx &＃61; x.permute(0, 2, 3, 1) #(B, H, W, C)x &＃61; self.pixel_norm(x)x &＃61; x.permute(0, 3, 1, 2).contiguous() #(B, C, H, W)return x

本文实验

在实验部分&＃xff0c;作者构建了VapSR与VapSR-S两个版本的轻量型超分方案&＃xff1a;

VapSR&＃xff1a;包含21个VAB模块&＃xff0c;主干通道数为48&＃xff1b;
VapSR-S&＃xff1a;包含11个VAB模块&＃xff0c;主干通道数为32。

此外&＃xff0c;需要注意的是&＃xff1a;对于X4模型&＃xff0c;重建模块并未采用常规的轻量方案(Conv&＃43;PS)&＃xff0c;而是采用了类EDSR的重方案(Conv&＃43;PS&＃43;Conv&＃43;PS)。

上表&图给出了不同方案的性能与可视化效果对比&＃xff0c;从中可以看到&＃xff1a;

所提VapSR取得了SOTA性能&＃xff0c;同时具有非常少的参数量。
在X4任务上&＃xff0c;相比RFDN与IMDN&＃xff0c;VapSR仅需21.68%/28.18%的参数量&＃xff0c;即可取得平均0.187dB指标提升&＃xff1b;
VapSR-S取得了与BSRN-S相当的性能&＃xff0c;后者是NTIRE2022-ESR模型复杂度赛道冠军。
在线条重建方面&＃xff0c;VapSR具有比其他方案更精确的重建效果。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复&＃xff1a;CVPR2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;Transformer综述&＃xff0c;即可下载最新的3篇Transformer综述PDF

超分辨率交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-超分辨率微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如超分辨率&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

uri
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
uri
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
io
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
merge
掌握 Git 与 SVN 的高效使用技巧，轻松应对版本控制挑战

本文深入探讨了 Git 与 SVN 的高效使用技巧，旨在帮助开发者轻松应对版本控制中的各种挑战。通过详细解析两种工具的核心功能与最佳实践，读者将能够更好地掌握版本管理的精髓，提高开发效率。 ... [详细]

蜡笔小新 2024-11-06 11:05:37
select
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
web
在CentOS 7上部署WebRTC网关Janus

在CentOS 7上部署WebRTC网关Janus ... [详细]

蜡笔小新 2024-11-04 11:09:50
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
uri
NVIDIA新一代Ampere架构详解：革新与优化并存的显卡技术飞跃

NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破，不仅在性能上实现了显著提升，还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进，为用户带来更加流畅的图形处理体验，同时降低了功耗，提升了计算效率。 ... [详细]

蜡笔小新 2024-10-29 14:10:54
text
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
select
蜂鸟E203学习笔记（四）——取指

1.1取值概述1.1.1如何快速取指首先要保证存储器的读延时足够小，通常使用指令紧耦合存储器（ITCM）和指令缓存器（I ... [详细]

蜡笔小新 2024-10-17 18:48:39
int
PyThon_Swift 势必取代 Python？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Swift势必取代Python？相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 14:20:18
int
关于ScrumXPDevOps的学习

最近听了ECUG大会上孙敬云老师的分享感觉受益匪浅，毕竟大学课本上只讲到瀑布模型就没有下文了，工作以后一直贯彻的都是Scrum路线，一直也没有时间好好的去学习整理这部分的知识，直到 ... [详细]

蜡笔小新 2024-10-12 10:31:25
merge
六百字读懂

译注：来自HackerSchool的MaryRoseCook实现了一个纯JavaScript（Node.js）写就的Git：Gitlet，包含了最主要的一些命令。这个项目一是为了了 ... [详细]

蜡笔小新 2024-10-10 18:38:24

张佩君宣真威任

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章