一文看尽物体检测中的各种FPN

作者：孙俊啟66864 | 来源：互联网 | 2023-10-09 20:04

早期的物体检测算法，无论是一步式的，还是两步式的，通常都是在Backbone的最后一个stage（特征图分辨率相同的所有卷积

早期的物体检测算法&＃xff0c;无论是一步式的&＃xff0c;还是两步式的&＃xff0c;通常都是在Backbone的最后一个stage&＃xff08;特征图分辨率相同的所有卷积层归类为一个stage&＃xff09;最后一层的特征图&＃xff0c;直接外接检测头做物体检测。此种物体检测算法&＃xff0c;可以称之为单stage物体检测算法。

由于单stage物体检测算法中&＃xff0c;Backbone的最后一个stage的stride通常是32&＃xff0c;导致输出的特征图分辨率是输入图片分辨率的1/32&＃xff0c;太小&＃xff0c;不利于物体检测&＃xff0c;因此单stage的物体检测算法&＃xff0c;一般会将最后一个stage的MaxPooling去掉或者将stride为2的conv改为stride为1的conv&＃xff0c;以增大最后一个分辨率。

后来研究发现&＃xff0c;单stage物体检测算法中&＃xff0c;无法用单一stage的特征图同时有效的表征各个尺度的物体&＃xff0c;因此&＃xff0c;后来物体检测算法&＃xff0c;就逐渐发展为利用不同stage的特征图&＃xff0c;形成特征金字塔网络&＃xff08;feature parymid network&＃xff09;&＃xff0c;表征不同scale的物体&＃xff0c;然后再基于特征金字塔做物体检测&＃xff0c;也就是进入了FPN时代。

本文将认真梳理物体检测中常用的各种FPN。

解构物体检测各个阶段

如上图&＃xff0c;我们常见的物体检测算法&＃xff0c;其实可以分解为三个递进的阶段&＃xff1a;

1&＃xff09;Backbone生成特征阶段

计算机视觉任务一般都是基于常用预训练的Backbone&＃xff0c;生成抽象的语义特征&＃xff0c;再进行特定任务微调。物体检测也是如此。

Backbone生成的特征&＃xff0c;一般按stage划分&＃xff0c;分别记作C1、C2、C3、C4、C5、C6、C7等&＃xff0c;其中的数字与stage的编号相同&＃xff0c;代表的是分辨率减半的次数&＃xff0c;如C2代表stage2输出的特征图&＃xff0c;分辨率为输入图片的1/4&＃xff0c;C5代表&＃xff0c;stage5输出的特征图&＃xff0c;分辨率为输入图片的1/32。

2&＃xff09;特征融合阶段

这个是FPN特有的阶段&＃xff0c;FPN一般将上一步生成的不同分辨率特征作为输入&＃xff0c;输出经过融合后的特征。输出的特征一般以P作为编号标记。如FPN的输入是&＃xff0c;C2、C3、C4、C5、C6&＃xff0c;经过融合后&＃xff0c;输出为P2、P3、P4、P5、P6。这个过程可以用数学公式表达&＃xff1a;

[公式]

3&＃xff09;检测头输出bounding box
FPN输出融合后的特征后&＃xff0c;就可以输入到检测头做具体的物体检测。

FPN的演进

物体检测性能提升&＃xff0c;一般主要通过数据增强、改进Backbone、改进FPN、改进检测头、改进loss、改进后处理等6个常用手段。

其中FPN自从被提出来&＃xff0c;先后迭代了不少版本。大致迭代路径如下图&＃xff1a;

1&＃xff09;无融合

无融合&＃xff0c;又利用多尺度特征的典型代表就是2016年日出的鼎鼎有名的SSD&＃xff0c;它直接利用不同stage的特征图分别负责不同scale大小物体的检测。

2&＃xff09;自上而下单向融合

自上而下单向融合的FPN&＃xff0c;事实上仍然是当前物体检测模型的主流融合模式。如我们常见的Faster RCNN、Mask RCNN、Yolov3、RetinaNet、Cascade RCNN等&＃xff0c;具体各个FPN的内部细节如下图。

a&＃xff09;Faster/Master/Cascade RCNN中的FPN

Faster/Master/Cascade RCNN中的FPN&＃xff0c;利用了C2-C6五个stage的特征&＃xff0c;其中C6是从C5直接施加1x1/2的MaxPooling操作得到。FPN融合后得到P2-P6&＃xff0c;其中P6直接等于C6&＃xff0c;P5是先经过1x1Conv&＃xff0c;再经过3x3Conv得到&＃xff0c;P2-P4均是先经过1x1Conv&＃xff0c;再融合上一层2xUpsample的特征&＃xff0c;再经过3x3Conv得到。具体过程可以看上图。

b&＃xff09;RetinaNet中的FPN

RetinaNet中的FPN&＃xff0c;利用了C3-C7五个stage的特征&＃xff0c;其中C6是从C5直接施加3x3/2的Conv操作得到&＃xff0c;C7是从C6直接施加3x3/2的Conv操作得到。FPN融合后得到P3-P7&＃xff0c;其中P6、P7直接等于C6、C7&＃xff0c;P5是先经过1x1Conv&＃xff0c;再经过3x3Conv得到&＃xff0c;P3-P4均是先经过1x1Conv&＃xff0c;再融合上一层2xUpsample的特征&＃xff0c;再经过3x3Conv得到。具体过程可以看上图。

可以看出&＃xff0c;RetinaNet基本与Faster/Master/Cascade RCNN中的FPN一脉相承。只是利用的stage的特征略有差别&＃xff0c;Faster/Master/Cascade RCNN利用了高分辨率低语义的C2&＃xff0c;RetinaNet利用了更低分辨率更高语义的C7。其他都是细微的差别。

c&＃xff09;Yolov3中的FPN

Yolov3中的FPN与上述两个有比较大的区别。首先&＃xff0c;Yolov3中的FPN只利用到了C3-C5三个stage的特征&＃xff1b;其次&＃xff0c;从C5征到P5特征&＃xff0c;会先经过5层Conv&＃xff0c;然后再经过一层3x3Conv&＃xff1b;最后&＃xff0c;C3-C4到P3-P4特征&＃xff0c;上一层特征会先经过1x1Conv&＃43;2xUpsample&＃xff0c;然后先与本层特征concatenate&＃xff0c;再经过5层Conv&＃xff0c;之后经过一层3x3Conv。看图最清楚。

可以看图仔细对比Yolov3与Faster/Master/Cascade RCNN以及RetinaNet细节上的区别。

3&＃xff09;简单双向融合

FPN自从提出来以后&＃xff0c;均是只有从上向下的融合&＃xff0c;PANet是第一个提出从下向上二次融合的模型&＃xff0c;并且PANet就是在Faster/Master/Cascade RCNN中的FPN的基础上&＃xff0c;简单增了从下而上的融合路径。看下图。

4&＃xff09;复杂的双向融合

PANet的提出证明了双向融合的有效性&＃xff0c;而PANet的双向融合较为简单&＃xff0c;因此不少文章在FPN的方向上更进一步&＃xff0c;尝试了更复杂的双向融合&＃xff0c;如ASFF、NAS-FPN和BiFPN。

ASFF
ASFF&＃xff08;论文&＃xff1a;Learning Spatial Fusion for Single-Shot Object Detection&＃xff09;作者在YOLOV3的FPN的基础上&＃xff0c;研究了每一个stage再次融合三个stage特征的效果。如下图。其中不同stage特征的融合&＃xff0c;采用了注意力机制&＃xff0c;这样就可以控制其他stage对本stage特征的贡献度。

NAS-FPN和BiFPN
NAS-FPN和BiFPN&＃xff0c;都是google出品&＃xff0c;思路也一脉相承&＃xff0c;都是在FPN中寻找一个有效的block&＃xff0c;然后重复叠加&＃xff0c;这样就可以弹性的控制FPN的大小。

其中BiFPN的具体细节如下图。

Recursive-FPN
递归FPN是此文写作之时前两周刚刚新出炉的&＃xff08;原论文是DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution&＃xff09;&＃xff0c;效果之好令人惊讶&＃xff0c;使用递归FPN的DetectoRS是目前物体检测&＃xff08;COCO mAP 54.7&＃xff09;、实体分割和全景分割的SOTA&＃xff0c;太强悍了。

递归FPN理解起来很容易&＃xff0c;就是将传统FPN的融合后的输出&＃xff0c;再输入给Backbone&＃xff0c;进行二次循环&＃xff0c;如下图。

下图给出了FPN与Recursive-FPN的区别&＃xff0c;并且把一个2层的递归FPN展开了&＃xff0c;非常简单明了&＃xff0c;不做过多介绍。

5&＃xff09;M2det中的SFAM

M2det中的SFAM&＃xff0c;比较复杂&＃xff0c;它是先把C3与C5两个stage的特征融合成一个与C3分辨率相同的特征图&＃xff08;下图中的FFM1模块&＃xff09;&＃xff0c;然后再在此特征图上叠加多个UNet&＃xff08;下图中的TUM模块&＃xff09;&＃xff0c;最后将每个UNet生成的多个分辨率中相同分辨率特征一起融合&＃xff08;下图中的SFAM模块&＃xff09;&＃xff0c;从而生成最终的P3、P4、P5、P6特征&＃xff0c;以供检测头使用。具体如下图。

每一个模块的详细细节如下图。

思考

FPN的优化会显著带来物体检测的性能提升&＃xff0c;当前最好的FPN是递归FPN&＃xff0c;期待将来更有效的FPN出现。

最近Facebook出了一篇文章object detection by transformer&＃xff0c;如果transformer与各种强大的FPN结合&＃xff0c;效果如何还是值得期待。

欢迎扫码关注同名微信公众号「小纸屑」&＃xff0c;解密AI大骗局。

参考文献

SSD: Single Shot Multibox Detector
Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks
Mask RCNN
Yolov3: An Incremental Improvement
RetinaNet: Focal Loss for Dense Object Detection
Cascade RCNN: Delving into High Quality Object Detection
PANet: Path Aggregation Network for Instance Segmentation
ASFF: Learning Spatial Fusion for Single-Shot Object Detection
NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection
BiFPN: (EfficientDet: Scalable and Efficient Object Detection)
DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
SFAM&＃xff08;M2det: A single-shot object detector based on multi-level feature pyramid network&＃xff09;

推荐阅读

replace
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
get
编程技巧：判断对象的具体类

探讨多种方法来确定Java对象的实际类型，包括使用instanceof关键字、getClass()方法等。 ... [详细]

蜡笔小新 2024-11-24 11:08:33
get
使用 Pyglet 加载和显示图像

本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具，特别适用于游戏和多媒体项目。 ... [详细]

蜡笔小新 2024-11-23 15:23:32
get
C# 实现服务账户密码重置功能

本文详细介绍了如何使用C#实现不同类型的系统服务账户（如Windows服务、计划任务和IIS应用池）的密码重置方法。 ... [详细]

蜡笔小新 2024-11-22 21:55:10
python
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
int
雨林木风 GHOST XP SP3 经典珍藏版 YN2014.04

雨林木风 GHOST XP SP3 经典珍藏版 YN2014.04 ... [详细]

蜡笔小新 2024-11-24 21:04:30
int
电脑护眼模式_解决眼睛疲劳，f.lux软件安装与使用指南

随着电子设备的普及，护眼成为显示器和操作系统的必备功能之一。本文将详细介绍如何通过安装和配置f.lux软件来有效减轻长时间面对电脑屏幕造成的眼部不适。 ... [详细]

蜡笔小新 2024-11-23 19:06:04
python
使用Python构建网页版图像编辑器

本文详细介绍了一款基于Python开发的网页版图像编辑工具，具备多种图像处理功能，如黑白转换、铅笔素描效果等。 ... [详细]

蜡笔小新 2024-11-23 13:14:41
int
服务器虚拟化存储设计,完美规划储存与资源，部署高性能虚拟化桌面

规划部署虚拟桌面环境前，必须先估算目前所使用实体桌面环境的工作负载与IOPS性能，并慎选储存设备。唯有谨慎估算贴近实际的IOPS性能，才能 ... [详细]

蜡笔小新 2024-11-22 19:12:09
int
[附源码]计算机毕业设计JAVAjsp医药管理信息系统

[附源码]计算机毕业设计JAVAjsp医药管理信息系统项目运行环境配置：Jdk1.8Tomcat7.0MysqlHBuilderX（Webstor ... [详细]

蜡笔小新 2024-11-22 18:50:22
get
iOS Xcode 项目重命名指南

本文详细介绍了如何在最新版本的Xcode中重命名iOS项目，包括项目名称、应用名称及相关的文件夹和配置文件。通过本文，开发者可以轻松完成项目的重命名工作。 ... [详细]

蜡笔小新 2024-11-22 13:16:52
string
Oracle 11g 创建表空间与基础配置

本文详细介绍了Oracle 11g中的创建表空间的方法，以及如何设置客户端和服务端的基本配置，包括用户管理、环境变量配置等。 ... [详细]

蜡笔小新 2024-11-21 18:54:39
const
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
get
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
get
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30

孙俊啟66864

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章