当前位置: 开发笔记 > 编程语言 > 正文

深度学习笔记：SSD论文阅读笔记简化

作者：少伶围脖 | 来源：互联网 | 2023-01-23 18:09

讲的挺好的，转发一下，原文链接：https://www.cnblogs.com/xuanyuyt/p/7447111.html

一. 算法概述
二. Default box
三. 正负样本
四. 网络结构
五.使用注意

回到顶部

一. 算法概述

本文提出的SSD算法是一种直接预测目标类别和bounding box的多目标检测算法。与faster rcnn相比，该算法没有生成 proposal 的过程，这就极大提高了检测速度。针对不同大小的目标检测，传统的做法是先将图像转换成不同大小（图像金字塔），然后分别检测，最后将结果综合起来（NMS）。而SSD算法则利用不同卷积层的 feature map 进行综合也能达到同样的效果。算法的主网络结构是VGG16，将最后两个全连接层改成卷积层，并随后增加了4个卷积层来构造网络结构。对其中5种不同的卷积层的输出（feature map）分别用两个不同的 3×3 的卷积核进行卷积，一个输出分类用的confidence，每个default box 生成21个类别confidence；一个输出回归用的 localization，每个 default box 生成4个坐标值（x, y, w, h）。此外，这5个feature map还经过 PriorBox 层生成 prior box（生成的是坐标）。上述5个feature map中每一层的default box的数量是给定的(8732个)。最后将前面三个计算结果分别合并然后传给loss层。

回到顶部

二. Default box

文章的核心之一是作者同时采用lower和upper的feature map做检测。如图Fig 1 所示，这里假定有8×8和4×4两种不同的feature map。第一个概念是feature map cell，feature map cell 是指feature map中每一个小格子，如图中分别有64和16个cell。另外有一个概念：default box，是指在feature map的每个小格(cell)上都有一系列固定大小的box，如下图有4个（下图中的虚线框，仔细看格子的中间有比格子还小的一个box）。假设每个feature map cell有k个default box，那么对于每个default box都需要预测c个类别score和4个offset，那么如果一个feature map的大小是m×n，也就是有**mn个feature map cell，那么这个feature map就一共有（c+4）k * m*n** 个输出。这些输出个数的含义是：采用3×3的卷积核对该层的feature map卷积时卷积核的个数，包含两部分（实际code是分别用不同数量的33卷积核对该层feature map进行卷积）：数量ckmn是confidence输出，表示每个default box的confidence，也就是类别的概率；数量4kmn是localization输出，表示每个default box回归后的坐标）。训练中还有一个东西：prior box，是指实际中选择的default box（每一个feature map cell 不是k个default box都取）。也就是说default box是一种概念，prior box则是实际的选取。训练中一张完整的图片送进网络获得各个feature map，对于正样本训练来说，需要先将prior box与ground truth box做匹配，匹配成功说明这个prior box所包含的是个目标，但离完整目标的ground truth box还有段距离，训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。举个列子：假设一个训练样本中有2个ground truth box，所有的feature map中获取的prior box一共有8732个。那个可能分别有10、20个prior box能分别与这2个ground truth box匹配上。训练的损失包含定位损失和回归损失两部分。

作者的实验表明default box的shape数量越多，效果越好。

这里用到的 default box 和Faster RCNN中的 anchor 很像，在Faster RCNN中 anchor 只用在最后一个卷积层，但是在本文中，default box 是应用在多个不同层的feature map上。

那么default box的scale（大小）和aspect ratio（横纵比）要怎么定呢？假设我们用m个feature maps做预测，那么对于每个featuer map而言其default box的scale是按以下公式计算的：

&＃x2228;” role=”presentation”>∨∨

Sk=Smin+Smax&＃x2212;Sminm&＃x2212;1(k&＃x2212;1),k&＃x2208;[1,m]” role=”presentation”>Sk=Smin+Smax−Sminm−1(k−1),k∈[1,m]Sk=Smin+Smax−Sminm−1(k−1),k∈[1,m]

这里smin是0.2，表示最底层的scale是0.2；smax是0.9，表示最高层的scale是0.9。

至于aspect ratio，用ar” role=”presentation”>arar表示为下式：注意这里一共有5种aspect ratio

ar={1,2,3,1/2,1/3}” role=”presentation”>ar={1,2,3,1/2,1/3}ar={1,2,3,1/2,1/3}

因此每个default box的宽的计算公式为：

wka=skar” role=”presentation”>wak=skar‾‾√wka=skar

高的计算公式为：（很容易理解宽和高的乘积是scale的平方）

hka=sk/ar” role=”presentation”>hak=sk/ar‾‾√hka=sk/ar

另外当aspect ratio为1时，作者还增加一种scale的default box：

sk&＃x2032;=sksk+1” role=”presentation”>s′k=sksk+1‾‾‾‾‾‾√sk′=sksk+1

因此，对于每个feature map cell而言，一共有6种default box。

可以看出这种default box在不同的feature层有不同的scale，在同一个feature层又有不同的aspect ratio，因此基本上可以覆盖输入图像中的各种形状和大小的object！

（训练自己的样本的时候可以在FindMatch()之后检查是否能覆盖了所有的 ground truth box）

源代码中的 ssd_pascal.py 设计了上面几个参数值，caffe 源码 prior_box_layer.cpp 中Forward_cpu()实现。

最后会得到（38384 + 19196 + 10106 + 55*6 + 334 + 114）= 8732个prior box。

Fig.2 SSD 框架

回到顶部

三. 正负样本

将prior box 和 grount truth box 按照IOU（JaccardOverlap）进行匹配，匹配成功则这个prior box就是positive example（正样本），如果匹配不上，就是negative example（负样本），显然这样产生的负样本的数量要远远多于正样本。这里将前向loss进行排序，选择最高的num_sel个prior box序号集合 D” role=”presentation”>DD。同时可以通过规范num_sel的数量（是正样本数量的三倍）来控制使得最后正、负样本的比例在 1：3 左右。

Fig.3 positive and negtive sample VS ground_truth box

1.正样本获得

我们已经在图上画出了prior box，同时也有了ground truth，那么下一步就是将prior box匹配到ground truth上，这是在 src/caffe/utlis/bbox_util.cpp 的 FindMatches 以及子函数MatchBBox函数里完成的。值得注意的是先是从groudtruth box出发给每个groudtruth box找到了最匹配的prior box放入候选正样本集，然后再从prior box出发为prior box集中寻找与groundtruth box满足IOU>0.5” role=”presentation”>IOU>0.5IOU>0.5的一个IOU最大的prior box（如果有的话）放入候选正样本集，这样显然就增大了候选正样本集的数量。

2.负样本获得

在生成一系列的 prior boxes 之后，会产生很多个符合 ground truth box 的 positive boxes（候选正样本集），但同时，不符合 ground truth boxes 也很多，而且这个 negative boxes（候选负样本集），远多于 positive boxes。这会造成 negative boxes、positive boxes 之间的不均衡。训练时难以收敛。

因此，本文采取，先将每一个物体位置上对应 predictions（prior boxes）loss 进行排序。对于候选正样本集：选择最高的几个prior box与正样本集匹配(box索引同时存在于这两个集合里则匹配成功)，匹配不成功则删除这个正样本（因为这个正样本不在难例里已经很接近ground truth box了，不需要再训练了）；对于候选负样本集：选择最高的几个prior box与候选负样本集匹配，匹配成功则作为负样本。这就是一个难例挖掘的过程，举个例子，假设在这8732个prior box里，经过FindMatches后得到候选正样本P” role=”presentation”>PP个候选负样本作为负样本。SSD算法中通过这种方式来保证 positives、negatives 的比例。实际代码中有三种负样本挖掘方式：

如果选择HARD_EXAMPLE方式（源于论文Training Region-based Object Detectors with Online Hard Example Mining），则默认M=64” role=”presentation”>M=64M=64的时候,就是论文中的正负样本比例1:3了。

enum MultiBoxLossParameter_MiningType {
  MultiBoxLossParameter_MiningType_NOnE= 0,
  MultiBoxLossParameter_MiningType_MAX_NEGATIVE = 1,
  MultiBoxLossParameter_MiningType_HARD_EXAMPLE = 2
};

3.Data augmentation

本文同时对训练数据做了 data augmentation，数据增广。

每一张训练图像，随机的进行如下几种选择：

使用原始的图像
随机采样多个 patch(CropImage)，与物体之间最小的 jaccard overlap 为：0.1，0.3，0.5，0.7 与 0.9

采样的 patch 是原始图像大小比例是 [0.3，1.0]，aspect ratio 在 0.5 或 2。

当 groundtruth box 的中心（center）在采样的 patch 中且在采样的 patch中 groundtruth box面积大于0时，我们保留CropImage。

在这些采样步骤之后，每一个采样的 patch 被 resize 到固定的大小，并且以 0.5 的概率随机的水平翻转（horizontally flipped，翻转不翻转看prototxt，默认不翻转）

这样一个样本被诸多batch_sampler采样器采样后会生成多个候选样本，然后从中随机选一个样本送人网络训练。

回到顶部

四. 网络结构

SSD的结构在VGG16网络的基础上进行修改，训练时同样为conv1_1，conv1_2，conv2_1，conv2_2，conv3_1，conv3_2，conv3_3，conv4_1，conv4_2，conv4_3，conv5_1，conv5_2，conv5_3（512），fc6经过331024的卷积（原来VGG16中的fc6是全连接层，这里变成卷积层，下面的fc7层同理），fc7经过111024的卷积，conv6_1，conv6_2（对应上图的conv8_2），conv7_1，conv7_2，conv,8_1，conv8_2，conv9_1，conv9_2，loss。然后一方面：针对conv4_3（4），fc7（6），conv6_2（6），conv7_2（6），conv8_2（4），conv9_2（4）（括号里数字是每一层选取的default box种类）中的每一个再分别采用两个33大小的卷积核进行卷积，这两个卷积核是并列的（括号里的数字代表prior box的数量，可以参考Caffe代码，所以上图中SSD结构的倒数第二列的数字8732表示的是所有prior box的数量，是这么来的38384+19196+10106+55*6+334+114=8732），这两个33的卷积核一个是用来做localization的（回归用，如果prior box是6个，那么就有64=24个这样的卷积核，卷积后map的大小和卷积前一样，因为pad=1，下同），另一个是用来做confidence的（分类用，如果prior box是6个，VOC的object类别有20个，那么就有6（20+1）=126个这样的卷积核）。如下图是conv6_2的localizaiton的33卷积核操作，卷积核个数是24（64=24，由于pad=1，所以卷积结果的map大小不变，下同）：这里的permute层就是交换的作用，比如你卷积后的维度是32×24×19×19，那么经过交换层后就变成32×19×19×24，顺序变了而已。而flatten层的作用就是将32×19×19×24变成328664，32是batchsize的大小。另一方面结合conv4_3（4），fc7（6），conv6_2（6），conv7_2（6），conv8_2（4），conv9_2（4）中的每一个和数据层（ground truth boxes）经过priorBox层生成prior box。

经过上述两个操作后，对每一层feature的处理就结束了。对前面所列的5个卷积层输出都执行上述的操作后，就将得到的结果合并：采用Concat，类似googleNet的Inception操作，是通道合并而不是数值相加。

Fig.5 SSD 流程

损失函数方面：和Faster RCNN的基本一样，由分类和回归两部分组成，可以参考Faster RCNN，这里不细讲。总之，回归部分的loss是希望预测的box和prior box的差距尽可能跟ground truth和prior box的差距接近，这样预测的box就能尽量和ground truth一样。

上面得到的8732个目标框经过Jaccard Overlap筛选剩下几个了；其中不满足的框标记为负数，其余留下的标为正数框。紧随其后：

训练过程中的 prior boxes 和 ground truth boxes 的匹配，基本思路是：让每一个 prior box 回归并且到 ground truth box，这个过程的调控我们需要损失层的帮助，他会计算真实值和预测值之间的误差，从而指导学习的走向。

SSD 训练的目标函数（training objective）源自于 MultiBox 的目标函数，但是本文将其拓展，使其可以处理多个目标类别。具体过程是我们会让每一个 prior box 经过Jaccard系数计算和真实框的相似度，阈值只有大于 0.5 的才可以列为候选名单；假设选择出来的是N个匹配度高于百分之五十的框吧，我们令 i 表示第 i 个默认框，j 表示第 j 个真实框，p表示第p个类。那么xijp” role=”presentation”>xpijxijp。总的目标损失函数（objective loss function）就由 localization loss（loc）与 confidence loss（conf）的加权求和：

N 是与 ground truth box 相匹配的 prior boxes 个数

localization loss（loc）是 Fast R-CNN 中 Smooth L1 Loss，用在 predict box（l）与 ground truth box（g）参数（即中心坐标位置，width、height）中，回归 bounding boxes 的中心位置，
以及 width、height

confidence loss（conf）是 Softmax Loss，输入为每一类的置信度 c

权重项 α，可在protxt中设置 loc_weight，默认设置为 1

回到顶部

五.使用注意

1. 使用batch_sampler做data argument时要注意是否crop的样本只包含目标很小一部分。

2.检查对于你的样本来说回归和分类问题哪个更难，以此调整multibox_loss_param中loc_weight进行训练。

3.正负样本比例，HARD_EXAMPLE方式默认只取64个最高predictions loss来从中寻找负样本，检查你的样本集中正负样本比例是否合适。

深度学习笔记：SSD 论文阅读笔记简化

推荐阅读

buffer
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
spring
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
go
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
jsp
Linux常用命令解析：ipcs与ipcrm

本文详细介绍了Linux系统中用于管理IPC（Inter-Process Communication）资源的两个重要命令：ipcs和ipcrm。通过这些命令，用户可以查看和删除系统中的消息队列、共享内存和信号量。 ... [详细]

蜡笔小新 2024-11-14 11:42:14
go
解决Laravel 5.4 Markdown邮件字符问题

我在使用Laravel 5.4时遇到了一个问题，当我发送Markdown格式的邮件时，输出结果并不如预期。以下是详细情况和解决方案。 ... [详细]

蜡笔小新 2024-11-13 23:49:52
jsp
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
java
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
java
解决Unreal Engine中UMG按钮长时间按住自动释放的问题

本文探讨了在Unreal Engine中使用UMG按钮时，长时间按住按钮会导致自动释放的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-14 20:40:39
java
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
jsp
Java初学者的一天

本文介绍了Java编程语言的基础知识，包括其历史背景、主要特性以及如何安装和配置JDK。此外，还详细讲解了如何编写和运行第一个Java程序，并简要介绍了Eclipse集成开发环境的安装和使用。 ... [详细]

蜡笔小新 2024-11-14 18:05:41
buffer
PHP 5.5.31 和 PHP 5.6.17 安全更新发布

PHP 5.5.31 和 PHP 5.6.17 已正式发布，主要包含多个安全修复。强烈建议所有用户尽快升级至最新版本以确保系统安全。 ... [详细]

蜡笔小新 2024-11-14 17:40:40
ip
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
go
如何在R中得到矩阵的右特征向量? - How to obtain right eigenvectors of matrix in R?

Edition:theprobleminmyquestionwasIvetriedtofindmatrixSfromequation8butthisequati ... [详细]

蜡笔小新 2024-11-13 17:16:49
export
Webpack 初探：Import 和 Require 的使用

本文介绍了 Webpack 中 Import 和 Require 的基本概念和使用方法，帮助读者更好地理解和应用模块化开发。 ... [详细]

蜡笔小新 2024-11-13 16:34:13
spring
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40

少伶围脖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章