2014OverFeatIntegratedRecognition,LocalizationandDetectionusingConvolutionalNetworks

作者：王慧1019 | 来源：互联网 | 2023-06-24 19:01

题目：使用卷积网络的集成的识别，定位和检测摘要我们提出了一个集成的框架，使用CNN来进行识别，定位和检测。我们展示如何在C

题目&＃xff1a;使用卷积网络的集成的识别&＃xff0c;定位和检测

摘要

　　我们提出了一个集成的框架&＃xff0c;使用CNN来进行识别&＃xff0c;定位和检测。我们展示如何在ConvNet中高效实现多尺度和滑动窗口方法。我们还通过学习预测对象边界来介绍一种新颖的深度学习方法来进行本地化。然后边界框需要累积起来而不是被抑制来达到增加检测置信度的目的。我们显示可以使用单个共享网络同时学习不同的任务。这个集成网络是ILSVRC-2013的定位方向的冠军&＃xff0c;并且获得了非常有竞争力的检测和分类任务的结果。在竞赛后的工作中&＃xff0c;我们为检测任务建立了新的最先进的技术。最后&＃xff0c;我们从我们最好的模型OverFeat中开放了一个特征提取器。

1 引言

　　识别图像中主要对象的类型是卷积网络&＃xff08;ConvNet&＃xff09;[17]已经应用多年的任务&＃xff0c;无论对象是手写字符&＃xff0c;房间号&＃xff0c;无特色的玩具&＃xff0c;交通标志[3,26]&＃xff0c;来自Caltech-10数据集[14]&＃xff0c;或来自于1000类ImageNet数据集[15]的物体。ConvNets对小数据集&＃xff08;如Caltech-101&＃xff09;的准确性&＃xff0c;虽然不错&＃xff0c;但并没有打破记录。然而&＃xff0c;大型数据集的出现使ConvNets能够显著提高在数据集上的最好的表现&＃xff0c;例如在1000类别的ImageNet[5]上。
　　ConvNets对许多这样的任务的主要优势是整个系统是端到端训练的&＃xff0c;从原始像素到最终类别&＃xff0c;从而减少手动设计合适的特征提取器的需求。主要缺点是他们对标记的训练数据样本是贪婪的。本文的主要目的是说明训练一个卷积神经网络的同时用来分类&＃xff0c;定位和检测图像中的对象可以提高分类精度和所有任务的检测和定位精度。本文提出一种新的集成方法用单个ConvNet来进行目标检测&＃xff0c;识别和定位。我们还引入了一种通过累积预测的边界框用于定位和检测的新方法。我们建议通过组合许多定位预测&＃xff0c;即使不在背景样本下训练&＃xff0c;也可以进行检测&＃xff0c;并且可以避免耗时和复杂的自举训练passes&＃xff08;过程&＃xff09;。不训练背景也会让网络专注于正确的类&＃xff0c;以提高准确性。在ImageNet2012和2013数据集上进行实验&＃xff0c;并在ILSVRC2013的定位和检测任务上得到了非常好的结果。虽然来自ImageNet分类数据集选择的的图像大多数是目标填充图像大部分的大致中心化的图像&＃xff0c;但是感兴趣的对象有时在图像内的大小和位置上会有显著的变化。解决这个问题的第一个想法是在图像中的多个位置&＃xff0c;以滑动窗口的方式和多尺度上应用ConvNet。然而&＃xff0c;即使这样&＃xff0c;许多观察窗口可能包含对象的完全可识别的部分&＃xff08;例如&＃xff0c;狗的头部&＃xff09;&＃xff0c;但是不是整个对象&＃xff0c;甚至也不是对象的中心。这导致分类结果很好&＃xff0c;但定位和检测很差。因此&＃xff0c;第二个想法是训练系统不仅对每个窗口产生类别分布&＃xff0c;而且产生包含对象的边界框相对于窗口的位置和大小的预测。第三个想法是对于每一个类别在每个位置和大小上累积置信度。许多作者建议使用ConvNets在多个尺度上的滑动窗口上进行检测和定位&＃xff0c;可以追溯到20世纪90年代初的多字符串[20]&＃xff0c;人脸[30]和手[22]。最近&＃xff0c;ConvNets已经被证明在自然图像的文本检测[4]&＃xff0c;人脸识别[8&＃xff0c;23]和行人检测[25]中具有最佳的性能。
　　一些作者还提出训练ConvNets直接预测要定位的对象的实例化参数&＃xff0c;例如相对于观察窗口的位置或者对象的姿态。例如Osadchy等人描述了一种同时用于面部检测和姿势估计的ConvNet。人脸是由九维输出空间中的3D管子表示的。管子上的位置表示姿势&＃xff08;俯仰、偏航滚动和&＃xff09;。当训练图像是人脸时&＃xff0c;训练网络在管子上已知姿态的位置处产生一个点。如果图像不是人脸&＃xff0c;则输出被推离出管子。在测试的时候&＃xff0c;到管子的距离表示图像是否包含人脸&＃xff0c;并且管子上最近的点的位置表示姿势。Taylor[27, 28] 等人使用ConvNet来估计身体部位&＃xff08;手&＃xff0c;头等&＃xff09;的位置&＃xff0c;以便推导出人体姿势。Hinton等人也提出训练网络来计算特征的显式实例化参数作为识别过程的一部分[12]。
　　其他作者也有建议通过基于ConvNet的分割执行目标定位的。最简单的方法在于训练ConvNet将其观察窗口的中心像素&＃xff08;或体积图像的体素&＃xff09;分类为区域之间的边界或不是[13]。但是当区域必须被分类时&＃xff0c;优先执行语义分割。主要思想是训练ConvNet来将观察窗口的中心像素与它所属的对象的类别分类&＃xff0c;使用窗口作为上下文用来决定。应用范围从生物图像分析[21]&＃xff0c;到移动机器人的障碍物标记[10]&＃xff0c;到照片的标记[7]。这种方法的优点就是&＃xff0c;边界轮廓不需要是矩形&＃xff0c;并且区域不需要是良好包围的对象。缺点就是它需要密集的像素级别的标签进行训练。这种分割预处理或者对象建议步骤最近在传统的计算机视频领域越来越受欢迎&＃xff0c;以减少用于检测的位置&＃xff0c;尺寸和宽高比的搜索空间[19&＃xff0c;2&＃xff0c;6&＃xff0c;29]。因此可以在搜索空间的最佳位置应用好的分类方法&＃xff0c;从而增加识别精度。此外&＃xff0c;[29,1]表明这些方法通过大大减少了不可能的对象区域&＃xff0c;从而减少潜在的误检率(false positive)来提高精度。然而&＃xff0c; 我们的密集滑动窗口方法&＃xff0c;能够在ILSVRC13检测数据集上胜过对象建议方法。Krizhevsky[15]等人最近使用一个大的ConvNet显示了令人印象深刻的分类表现。作者也参加了ImageNet2012挑战赛&＃xff0c;赢得了分类和定位的挑战。虽然他们表示了令人印象深刻的定位性能&＃xff0c;但是没有公布他们的方法。因此&＃xff0c;我们的文章是第一个提供一个清晰的解释关于ConvNet是怎样应用于ImageNet数据的定位和检测的。
　　在本文中&＃xff0c;我们使用的术语定位和检测的方式和他们在ImageNet2013竞赛中使用的一致&＃xff0c;即唯一的不同就是使用的评估标准&＃xff0c;并且都涉及到预测图像中每个物体的边界框。

2 视觉任务

　　在本文中&＃xff0c;我们探讨了三个计算机视觉的任务&＃xff0c;难度顺序递增&＃xff08;i&＃xff09;分类&＃xff0c;&＃xff08;ii&＃xff09;定位&＃xff0c;&＃xff08;iii&＃xff09;检测。每一个任务都是下一个任务的子任务。然而所有的任务都使用单一框架和共享的特征学习库来解决&＃xff0c;我们将在下面的章节中单独的描述它们。
　　整篇论文中&＃xff0c;我们报告了ILSVRC2013的结果。在分类任务中&＃xff0c;每个图片都被分配一个单独的标签对应于图像中主要物体。允许猜5次来找到正确的类别&＃xff08;这是因为图像中也可能会包含很多未标注的物体&＃xff09;。定位任务是类似的&＃xff0c;每个图像允许猜5次&＃xff0c;但此外&＃xff0c;对于每个猜测必须返回预测目标的的边界框。如果被认为是正确的&＃xff0c;预测框与正确答案匹配程度必须达到50%&＃xff08;使用交叉并集的PASCAL标准&＃xff09;&＃xff0c;并且标记为正确的类&＃xff08;即&＃xff0c;每一个预测都是标签和边界框连接在一起&＃xff09;。检测任务不同于定位任务&＃xff0c;因为在每个图像中可以存在任何数量的物体&＃xff08;包括零个&＃xff09;&＃xff0c;并且误检率会通过平均精度&＃xff08;mAP&＃xff09;受到惩罚。定位任务是分类和检测之间的一个方便的中间步骤&＃xff0c;并且允许我们独立于检测特有的挑战&＃xff08;例如学习背景类&＃xff09;来评估我们的定位方法。在图1中&＃xff0c;我们用我们的定位/检测预测以及相应的groudtruth显示图像的示例。注意&＃xff0c;分类和定位共享相同的数据集&＃xff0c;然而检测还具有附加的数据集其中的对象可能会更小。检测数据也包含一组图像&＃xff0c;其中某一些对象是缺失的。这可用于自举&＃xff0c;但在本次工作中我们没有利用它。

图1&＃xff1a;**定位&＃xff08;上面&＃xff09;和检测任务&＃xff08;下面&＃xff09;。**左边图像包含我们的预测值&＃xff08;按置信度递减排序&＃xff09;&＃xff0c;然而右面的图像显示了正确的标签。检测图像&＃xff08;下面&＃xff09;展示了检测数据集的更高的困难度&＃xff0c;它可能包含很多小的物体&＃xff0c;然而分类和定位图像典型的包含一个单独的大的目标

3 分类

　　我们的分类结构类似于Krizhevsky等人最好的ILSVRC12架构[15]。然而&＃xff0c;我们改进了网络设计和推理步骤。由于时间限制&＃xff0c; Krizhevsky模型的一些训练特征没有被探索&＃xff0c;所以我们期望我们的结果可以进一步改差善。这些会在第6节未来工作中被讨论。

3.1 模型设计和训练

　　我们在ImageNet2012训练集上训练网络&＃xff08;120万图像和C&＃61;1000类&＃xff09;[5]。我们的模型在训练期间使用与 Krizhevsky等人相同的固定输入大小的方法&＃xff0c;但是转向多尺度分类&＃xff0c;如下一节中所述。每个图像都被下采样&＃xff0c;使得最小的维度是256个像素。然后&＃xff0c;我们提取了5个大小为221*221个像素的随机剪裁&＃xff08;及其水平翻转&＃xff09;&＃xff0c;并将这些图像以大小为128的小批量呈现给网络。这些网络中的权重用&＃xff08;μ&＃xff0c;σ&＃xff09;&＃61;&＃xff08;0&＃xff0c;1∗10−2&＃xff09;。它们用随机梯度下降算法更新&＃xff0c;momentum系数是0.6并且l2权重衰减系数为1∗10−5。学习率最初设为5∗10−2&＃xff0c;并且在&＃xff08;30&＃xff0c;50&＃xff0c;60&＃xff0c;70&＃xff0c;80&＃xff09;次训练次数之后依次减小0.5倍。在分类器中的全连接层&＃xff08;第6和第7&＃xff09;上dropout设为0.5。
　　我们在表1和表3中详细描述了结构大小。在训练期间&＃xff0c;我们将我们的结构看成是非空间的&＃xff08;输出映射大小是1*1的&＃xff09;&＃xff0c;这对比于推理阶段&＃xff0c;它产生了一个空间上的输出。1-5层类似于Krizhevsky等人&＃xff0c;使用了修正&＃xff08;“relu”&＃xff09;非线性单元和最大池化层&＃xff0c;但是具有下面的不同&＃xff1a;&＃xff08;i&＃xff09;对比正则化没用&＃xff1b;&＃xff08;ii&＃xff09;池化区域是非重叠的&＃xff1b;并且&＃xff08;iii&＃xff09;我们的模型有更大的第1和第2层的特征映射&＃xff0c;是由于更小的步长&＃xff08;2而不是4&＃xff09;。较大的步幅有利于速度&＃xff0c;但是会损害准确性。在图2中&＃xff0c;我们展示了前两个卷积层的过滤器系数。第一层过滤器捕获定向的边缘&＃xff0c;图案和斑点。在第二层中&＃xff0c;过滤器具有各种形式&＃xff0c;一些漫射&＃xff0c;其他具有强线性结构或定向边缘。

表1&＃xff1a;**快速模型结构。**特征映射的空间大小取决于输出图像大小&＃xff0c;在我们的推理步骤时会有改变&＃xff08;看附件中的表5&＃xff09;。在这里我们展示了训练的空间大小。第5层是顶层卷积层。后续层次是全连接层&＃xff0c;并在测试的时候以滑动窗口的方式应用。全连接层也可以看成空间中的1\*1的卷积。类似尺寸的精确模型可以在附录中找到。

表3&＃xff1a;**精确模型的结构。**它与快速模型的不同之处主要在第一个卷积层的步长&＃xff0c;阶段的数量&＃xff0c;和特征映射层的数量上。

表5&＃xff1a;**多尺度方法的空间维度。**使用了6个不同尺寸的输入图像的大小&＃xff0c;导致具有不同空间分辨率的未池化的特征图的层5&＃xff08;尽管在表中未示出&＃xff0c;全部具有256个特征通道&＃xff09;。&＃xff08;3\*3&＃xff09;来自于密集池化操作&＃xff0c;其中&＃xff08;∆x, ∆y&＃xff09;&＃61;{0&＃xff0c;1&＃xff0c;2}。如何将这些转换为输出映射的详细信息&＃xff0c;请参阅文本和图3。

3.2 特征抽取

　　随着本文&＃xff0c;我们发布了一个特征抽取器取名为”OverFeat“&＃xff0c;以便为计算机视觉研究提供强有力的特征。提供了2个模型&＃xff0c;一个快速版本一个精确版本。每一个结构都在表1和表3中描述。我们在表4中关于参数和连接方面比较了他们的尺寸。我们准确模型比快速模型更准确&＃xff08;14.18%的分类错误率对比于16.39%的错误率&＃xff0c;在表2中可以看到&＃xff09;&＃xff0c;然而它需要几乎两倍多的连接。使用7个精确模型的连合可以达到13.6%的分类误差&＃xff0c;如图4所示。
　　
　　

表4&＃xff1a;不同模型的参数和连接的数量

表2&＃xff1a;验证集上的分类实验。Fine/coarse步长指的是当应用分类器的时候使用的∆ 值的数量。Fine:∆&＃61;0&＃xff0c;1&＃xff0c;2&＃xff1b;corse&＃xff1a;∆ &＃61;0。

测试集分类结果。在竞赛中&＃xff0c;OverFeat使用了7个快速模型的平均产生了14.2%的Top5的错误率。在竞赛之后的工作中&＃xff0c;OverFeat使用更大的模型用13.6%的错误率排名第5&＃xff08;更多的特征和更多的层&＃xff09;。

3.3 多尺度分类

　　在[15]中&＃xff0c;多视角的投票被用来去提高性能&＃xff1a;10个视觉的一个固定集合&＃xff08;4个角度和中心&＃xff0c;加上水平翻转&＃xff09;被平均。然而&＃xff0c;这种方法可能会忽略图像的请多区域&＃xff0c;当视觉重叠的时候会产生计算冗余。而且&＃xff0c;它仅被应用于单一尺度上&＃xff0c;这可能不是ConvNet将以最佳置信度响应的规模。
　　相反&＃xff0c;我们通过在在每个位置和多个尺寸上密集地运行网络来探索整个图像。虽然滑动窗口的方法对于某些类型的模型在计算上是不可能的&＃xff0c;但是在ConvNet的情况下其在本质上是有效的&＃xff08;参见3.5节&＃xff09;。这种方法产生了更多的视角进行投票&＃xff0c;并且在保持高效的同时增加了强健性。在任意大小的图像上执行一个ConvNet操作的结果就是一个在每一个尺寸下的C维的向量的空间映射。
　　然而&＃xff0c;在上面描述的网络中的完整的下采样率是2∗3∗2∗3&＃xff0c;或者说是36。因此当被密集应用时&＃xff0c;该结构仅能够在沿着每个轴的输入维度中每36个像素产生一个分类向量。与10视图方案比&＃xff0c;这种输出的粗分布减少了性能&＃xff0c;因为网络窗口不能与图像中的目标很好的对准。网络窗口和对象对齐的更好&＃xff0c;网络响应的置信度越高。为了解决这个问题&＃xff0c;我们采取了类似于Giusti等人的方法[9]&＃xff0c;并且在每个偏移处应用最后的下采样操作。这消除了该层的分辨率损失&＃xff0c;产生了*12而不*36的总的下采样率。
　　我们现在将详细解释分辨率增强是怎么执行的。我们使用6个比例的输入&＃xff0c;其导致了不同分辨率的未经池化的第5层映射&＃xff08;详见表5&＃xff09;。然后将它们池化并使用以下程序呈现给分类器&＃xff0c;如图3所示。
　　
　　
　　

图3&＃xff1a;用于分类的输出映射计算的1维示例&＃xff0c;使用来自表5中的scale 2的y维作为示例。&＃xff08;a&＃xff09;&＃xff1a;20个像素的未经池化的第5层特征图。&＃xff08;b&＃xff09;&＃xff1a;在不重叠的3个像素组上执行最大池化&＃xff0c;使用偏移为∆ &＃61;{0&＃xff0c;1&＃xff0c;2}个像素&＃xff08;各自表示为红色&＃xff0c;绿色&＃xff0c;蓝色&＃xff09;。&＃xff08;c&＃xff09;&＃xff1a;对于不同的

Δ&＃xff0c;得到6个像素池化后的映射。&＃xff08;d&＃xff09;&＃xff1a;5像素的分类器&＃xff08;6&＃xff0c;7层&＃xff09;以滑动窗口的方式被应用到池化后的映射上&＃xff0c;对于每一个

Δ&＃xff0c;产生2个像素的C个映射。&＃xff08;e&＃xff09;&＃xff1a;重新形成6个像素的C输出映射。

　　&＃xff08;a&＃xff09;对于一个给定尺寸的图像&＃xff0c;我们从未经池化的第5层特征映射开始。

　　&＃xff08;b&＃xff09;每一个未经池化的映射都会经历

3∗3最大池化操作&＃xff08;没有重叠区域&＃xff09;&＃xff0c;对于{0&＃xff0c;1&＃xff0c;2}的&＃xff08;

Δx&＃xff0c;Δy&＃xff09;像素偏移重复

3∗3次。&＃xff08;PS&＃xff1a;X方向3次&＃xff0c;Y方向也是3次&＃xff0c;组合起来就是9次&＃xff09;。

　　&＃xff08;c&＃xff09;这将产生一堆池化后的特征映射&＃xff0c;对于不同的&＃xff08;

Δx&＃xff0c;Δy&＃xff09;的组合重复&＃xff08;3*3次&＃xff09;。

　　&＃xff08;d&＃xff09;分类器&＃xff08;6&＃xff0c;7&＃xff0c;8层&＃xff09;有一个固定的5*5的输入大小&＃xff0c;并且在池化后的映射中的每一个位置都会产生一个C维的输出向量。分类器以滑动窗口的方式应用到池化后的映射图上&＃xff0c;产生了C维的输出映射的结合&＃xff08;对于一个给定的&＃xff08;

Δx&＃xff0c;Δy&＃xff09;&＃xff09;。

　　&＃xff08;e&＃xff09;对于不同的&＃xff08;

Δx&＃xff0c;Δy&＃xff09;&＃xff09;的结合的输出映射图被重新形成一个单独的3维的输出映射图&＃xff08;两个空间维*C个类别&＃xff09;。

　　这些操作可以看成是将分类器的窗口移动1个像素通过池化层而不经过下采样&＃xff0c;并且在下一层中使用跳跃核&＃xff08;其中领域中的值是不相邻的&＃xff09;。或者&＃xff0c;也可以说&＃xff0c;在每一个可能的偏移处应用最后的池化层和全连接堆栈&＃xff0c;以及通过交织输出来组合结果。

　　上面的过程被重复应用于每一个图像的水平翻转版本。然后我们产生最后的分类通过&＃xff1a;&＃xff08;i&＃xff09;在每个尺度和翻转上取每个类的最大值&＃xff1b;&＃xff08;ii&＃xff09;平均得到的不同尺寸和翻转的C维向量&＃xff1b;&＃xff08;iii&＃xff09;从平均的类的向量中得到top-1和top-5的元素&＃xff08;依赖于评价标准&＃xff09;。

　　从直观上来看&＃xff0c;网络的两个半部分-即特征提取层&＃xff08;1-5&＃xff09;和分类层&＃xff08;6-输出&＃xff09;-以相反的方式使用。在特征提取部分中&＃xff0c;在整个图像中卷积过滤器一遍。从计算角度来看&＃xff0c;这比在图像上滑动固定大小的特征提取器然后合并来自不同位置的结果更有效。然而&＃xff0c;这些原则在网络的分类部分是反过来的。在这里&＃xff0c; 我们想要在不同的位置和尺寸上在第5层的特征映射层寻找到一个固定大小的表示。因此这个分类器有一个固定大小的5*5的输入&＃xff0c;并且穷尽地应用到第5层映射层。穷尽的池化方案&＃xff08;具有单个像素位移&＃xff08;

Δx&＃xff0c;Δy&＃xff09;确保我们可以获得分类器和特征图中的对象的表示之间的精细对准&＃xff09;。

3.4 结果

　　在表2中&＃xff0c;我们用不同的方法做了实验&＃xff0c;并且将它们和Krizhevsky 等人的模型进行对比用于推理。上面描述的方法&＃xff0c;用6个尺度&＃xff0c;实现了top-5的错误率到13.6%。正如可能期望的一样&＃xff0c;使用理小的尺度不得于性能&＃xff1a;单一比例的模型更差&＃xff0c;top-5错误率为16.97%。图3中描述的精细的步长技术在单一尺度方案上带来了相对较小的改进&＃xff0c;但对于这里所示的多尺度增益也是非常重要的。我们在图4中报告了2013竞赛的测试集结果&＃xff0c;我们的模型&＃xff08;OverFeat&＃xff09;通过用7个ConvNets&＃xff08;每一个使用不同的初始化&＃xff09;的投票获得了14.2%的准确度并且在18个队伍里排名第5。仅仅使用ILSVRC13数据的最好的准确性是11.7%。使用ImageNet Fall11数据集的额外数据进行预训练将此数据提高到11.2%。在竞赛之后&＃xff0c; 我们使用更大的模型&＃xff08;更多的特征和更的层次&＃xff09;将OverFeat的结果改进到13.6%的错误率。由于时间限制&＃xff0c;这些更大的模型没有得到更大的训练&＃xff0c;预计随着时间会有更多的改进。

3.5 ConvNets和滑动窗口效率

　　许多滑动窗口一次为输入的每个窗口计算整个流水线&＃xff0c;与它们相比&＃xff0c;ConvNets当以滑动的方式被应用的时候本质上是高效的&＃xff0c;因为它们自然的对重叠区域的公共部分共享计算。当在测试时将我们的网络应用于更大的图像时&＃xff0c;我们简单地在整个图像范围内应用每个卷积。为了覆盖新的图像大小&＃xff0c;这扩展了每个层的输出&＃xff0c;最终产生了输出类别预测的地图&＃xff0c;其中针对输入的每个”窗口“&＃xff08;视场&＃xff09;具有一个空间位置。这在图5中说明。卷积是从底向上的被应用的&＃xff0c;使得相邻窗口的公共部分的计算只需要进行一次。
　　
　　

图5&＃xff1a;ConvNets用于检测的有效性。在训练的时候&＃xff0c;一个ConvNet仅仅产生一个空间输出&＃xff08;top&＃xff09;。但是当在测试的时候应用到一个更大的图像上时&＃xff0c;它能产生一个空间输出图&＃xff0c;例如2*2&＃xff08;bottom&＃xff09;。因为所有层次都是以卷积的方式在应用&＃xff0c;对于更大的图像需要的多余的计算被限制在黄色部分。出于简洁&＃xff0c;这个图表忽略了特征维度。

　　注意到我们的结构的最后一层是全连接线性层。在测试的时候&＃xff0c;这些层次被1*1空间范围内的卷积核操作有效地替换。然后&＃xff0c;整个ConvNet仅仅是卷积&＃xff0c;最大池化层和阈值操作层的序列。

4.定位

　　从训练的分类网络开始&＃xff0c;我们用回归网络替换分类层并且训练它在每一个空间位置和尺寸上预测对象边界框。然后我们将回归预测结合在一起&＃xff0c;连同每个位置的分类结果&＃xff0c;如我们现在描述的这样。

4.1 产生预测

　　为了生成对象边界框的预测值&＃xff0c;我们在所有的位置和尺寸上运行分类器和回归网络。因为它们共享相同的特征提取层&＃xff0c;因此在计算了分类网络之后&＃xff0c;仅需要计算最后的回归层。在每个位置处的类c的最终softmax层的输出提供了类c的对象存在&＃xff08;但不一定完全包含&＃xff09;在对应视场中的置信得分。因此&＃xff0c;我们可以为每个边界框分配置信度。

4.2 回归器训练

例如&＃xff0c;以尺度2对于第5层的特征应用回归网络。&＃xff08;a&＃xff09;对于&＃xff08;3*3&＃xff09;

Δx&＃xff0c;Δy偏移中的每一个&＃xff0c;在这个尺寸下&＃xff0c;回归器的输入是

6∗7个像素&＃xff0c;空间上具有256个通道。&＃xff08;b&＃xff09;回归网络中的第一层的每个单元连接到层5映射中的

5∗5的领域上&＃xff0c;以及所有的256个通道。移动

5∗5的领域会产生

2∗3的空间范围的映射&＃xff0c;对于层中4096通道中的每一个&＃xff0c;以及对于&＃xff08;3*3&＃xff09;

Δx&＃xff0c;Δy偏移中的每一个。&＃xff08;c&＃xff09;第二个回归层有1024个单元并且是全连接的&＃xff08;即&＃xff0c;紫色元素仅仅连接到(b)中的紫色元素&＃xff0c;跨所有的4096个通道&＃xff09;。回归网络的输出在

2∗3的映射上的每一个位置上都是一个4个数的向量&＃xff08;指定边界框的边界&＃xff09;&＃xff0c;以及&＃xff08;

3∗3&＃xff09;

Δx&＃xff0c;Δy偏移中的每一个。

　　我们固定住分类网络中的特征抽取值&＃xff08;1-5&＃xff09;&＃xff0c;并且使用每个例子的预测和真实边界框之间的

l2损失训练回归网络。最后的回归层是类特定的&＃xff0c;有1000个不同的版本&＃xff0c;每个类一个。我们使用与第3节中描述的相同的配置来训练这个网络。我们比较每个空间位置处的回归网络的预测值与真实值&＃xff0c;并且转移到卷积内的回归器的平移偏移参考系中。然而&＃xff0c;我们不在与输入视场小于50%重叠的边界框上训练回归器&＃xff1a;因为对象大部分在这些位置之外&＃xff0c;所以将更好的通过包含对象的回归窗口来处理。以多尺度的方式训练回归器对于跨尺度预测组合是重要的。在单个尺度上的训练将在该尺度上表现良好&＃xff0c;并且在其他尺度上仍表现合理。然而&＃xff0c;多尺度训练将使预测在尺度上正确匹配&＃xff0c;并且以指数方式增加合并预测的置信度。反过来&＃xff0c;这允许我们只用几个尺度就可以表现的良好&＃xff0c;而不是通常在检测中的情况下的许多尺度。在行人检测中&＃xff0c;从一个刻度到另一个刻度的典型比率是大约1.05到1.1&＃xff0c;但是在这里我们使用大约1.4的大比率&＃xff08;由于尺度被调整以适合我们的网络的步幅&＃xff0c;因此每个刻度的该比率是不同的&＃xff09;&＃xff0c;这使得我们能够更快地运行我们的系统。

4.3 组合预测

　　我们通过应用于回归器边界框的贪婪合并策略来组合各个预测&＃xff08;参见图7&＃xff09;&＃xff0c;使用以下算法&＃xff1a;
　　
　　

图7&＃xff1a;由回归网络产生边界框的例子&＃xff0c;在被合并到最后预测之前。在这里展示的例子是在一个单一尺寸上。在其他尺度上预测可能是更佳的&＃xff0c;这依赖于物体。这里&＃xff0c;最初被组织为网络的大多数边界框会收敛到单个位置和尺度。这表明网络对于对象的位置非常确信&＃xff0c;而不是随机展开。左上角的图像表明&＃xff0c;如果存在多个对象&＃xff0c;它也可正确地识别多个位置。预测的边界框各种长宽比展示了网络能够处理各种对象姿态。

　　&＃xff08;a&＃xff09;将每个尺度的前K个类别的集合分配给

Cs&＃xff0c;

s∈1...6&＃xff0c;通过对该尺度的空间位置取最大检测类输出来找到。

　　&＃xff08;b&＃xff09;对于在

Cs中的每一个类由回归网络预测的边界框的集合分配给

Bs&＃xff0c;跨越尺度s的所有空间位置。

　　&＃xff08;c&＃xff09;

B←⋃sBs

　　&＃xff08;d&＃xff09;重复合并直到完成&＃xff1a;

　　&＃xff08;e&＃xff09;

(b∗1,b∗2)&＃61;argminb1≠b2∈Bmatchscore(b1,b2)

　　&＃xff08;f&＃xff09;如果match_score

(b∗1,b∗2)>t&＃xff0c;就停止

　　&＃xff08;g&＃xff09;否则&＃xff0c;

B←B∖{b∗1,b∗2}∪box_merge

(b∗1,b∗2)

　　在上面&＃xff0c;我们使用两个边界框的中心之间的距离和框的交叉区域的和来计算 match score。box merge计算了边界框坐标的平均值。

　　通过取具有最大类分数的合并边界框给出最终预测。这是通过累积地添加与从其预测每个边界框的输入窗口相关联的检测类输出来计算的。关于很多边界框合并到单个高置信边界框中的例子参考图6。在那个例子中&＃xff0c;一些乌龟和鲸鱼边界框出现在中间的多尺度步骤中&＃xff0c;但在最终的检测图像中消失了。这些边界框不仅具有很低的分类置信度&＃xff08;分别最多为0.11和0.12&＃xff09;&＃xff0c;它们的集合不像熊边界框那样一致&＃xff0c;以获得显著的置信度的提升。熊的框具有很强的置信度&＃xff08;平均每个尺度约0.5&＃xff09;和高的匹配得分。因此&＃xff0c;在合并之后&＃xff0c;许多熊的边界框被融合成单个具有非常高置信度的框&＃xff0c;而 false positives 就消失在检测阈值之下&＃xff0c;因为他们缺乏边界框相干和置信。这个分析表明&＃xff0c;我们的方法自然比来自纯分类模型的false positive比传统的非极大值抑制&＃xff0c;通过奖励边界框想干更加健壮。

4.4 实验

　　我们使用为比赛指定的定位标准将我们的网络应用于ImageNet2012验证集上。其结果展示于图9中。图10展示了2012和2013定位比赛的结果&＃xff08;这几年的训练和测试数据是相同的&＃xff09;。我们的方法以29.9%的错误率成为2013竞赛的冠军。
　　
　　

图9&＃xff1a;在ILSVRC2012验证集上的定位实验。我们在不同的尺度上进行了实验并且使用了single-class regression(SCR)或per-class regression(PCR)。

图10&＃xff1a;ILSVRC12和ILSVRC13竞赛结果&＃xff08;测试集&＃xff09;。我们的方法在ILSVRC13的定位竞赛中以top5的29.9%的错误率获得了冠军。注意到训练和测试数据在这两年里是相同的。OverFeat方法使用了4个尺度和一个单一类别回归的方法。

　　我们的多尺度和多视角方法对于获得好的表现是非常重要的&＃xff0c;可以在图9中看到&＃xff1a;仅仅使用一个单一的中心剪裁的方法&＃xff0c;我们回归网络实现了40%的错误率。通过在两个尺度上组合来自所有空间位置的回归预测&＃xff0c;我们实现了31.5%的更好的错误率。增加一个第三和第四尺度进一步将性能提高到30.0%的错误率。

　　对于每个类&＃xff08;在图9中的Per-Class Regressor(PCR)&＃xff09;&＃xff0c;在回归器网络中每个类使用不同的顶层令人惊讶地没有优于仅使用在所有类之间共享的单个网络&＃xff08;44.1% 对 31.3%&＃xff09;。这可能是因为在训练集中用边界框注释每个类的示例相对较少&＃xff0c;而网络具有1000倍的顶层参数&＃xff0c;导致训练不足。有可能通过仅在类似的类之间共享参数来改进该方法&＃xff08;例如&＃xff0c;为所有类别的狗训练一个网络&＃xff0c;为车辆训练一个网络等&＃xff09;。

5 检测

　　检测训练类似于分类训练&＃xff0c;但是是以空间方式。可以同时训练图像的多个位置。因为模型是卷积的&＃xff0c;所有的权重在所有的位置都是共享的。与定位任务的主要区别是&＃xff0c;当没有对象存在的时候&＃xff0c;需要预测一个背景类。传统上&＃xff0c;负例最初是随机地用于训练。然后&＃xff0c;最令人不安的否定错误被添加到引导传递中的训练集。独立引导传递使训练复杂化&＃xff0c;并且在负样本收集和训练时间之间存在潜在的不匹配。此外&＃xff0c;引导传递的大小需要调整&＃xff0c;以确保在小训练集上训练不会过拟合。为了解决所有的问题&＃xff0c;我们通过选择每个图像的几个有趣的负例子&＃xff0c;如随机的或最令人不安的&＃xff0c;来执行负例训练。这种方法在计算上更昂贵&＃xff0c;但是使得过程更简单。因为特征提取最初训练是用于分类任务&＃xff0c;因此检测微调并不长。
　　在图11中&＃xff0c;我们报告了在ILSVRC2013竞赛上的结果&＃xff0c;其中我们的检测系统以19.4%的平均精度&＃xff08;mAP&＃xff09;排名第3。我们随后建立了具有24.3%mAP的新的检测状态。注意到前3种方法和其他团队之间具有很大的差距&＃xff08;第四种方法产生了11.5%mAP&＃xff09;。此外&＃xff0c;我们的方法显著不同于前两个其他系统&＃xff0c;其使用一个初始分割步骤来减少候选窗口从大约200000减少到2000。这种技术加速了推理并且大大减小了潜在的false positives的数量。[29,1]表明&＃xff0c;当使用密集滑动窗口而不是选择性搜索时&＃xff0c;检测精度下降&＃xff0c;其丢弃不太可能的对象位置&＃xff0c;从而减少false positives。结合我们方法&＃xff0c;我们可以观察到类似的改进&＃xff0c;如传统的密集方法和基于分割的方法之间所见。需要注意的是&＃xff0c;我们和NEC和UvA做的不一样&＃xff0c;我们并没有在检验证集上微调。验证和测试集分布与训练集明显不同&＃xff0c;这单独地将结果提高大约一个点。图11中的两个OverFeat结果之间的改进是由于较长的训练时间和上下文的使用&＃xff0c;即每个尺度也使用较低分辨率的尺度作为输入。
　　
　　

图11&＃xff1a;ILSVRC13测试集检测结果。在竞赛期间&＃xff0c;UvA以22.6%的mAP排第一。在后期的竞赛工作中&＃xff0c;我们以24.3%的mAP建立了一个新的最先进的方法。标记着*的系统是用ILSVRC12分类数据进行预训练的。

6讨论

　　我们已经提出了一个多尺度&＃xff0c;滑动窗口的方法&＃xff0c;其可以用于分类&＃xff0c;定位&＃xff0c;和检测。我们将它应用于ILSVRC13数据集上&＃xff0c;它目前在分类任务上排名第4&＃xff0c;在定位上排名第1&＃xff0c;在检测上排名第1。我们的文章的第二个重要的贡献就是解释了ConvNets是怎样被有效地应用于检测和定位任务的。这些在[15]中是从来没有被解决的&＃xff0c;并且因此我们是第一个解释了如何在ImageNet2012的上下文中做到这一点的。我们提出的方案涉及对为分类设计的网络的大量修改&＃xff0c;但是清楚地表明ConvNets能够执行这些更具有挑战性的任务。我们的定位方法赢得了2013ILSVRC竞赛&＃xff0c;并且明显地优于其他的所有2012和2013年的方法。检测模型在比赛中排名靠前&＃xff0c;在赛后结果中排名第一。我们提出了一个集成管道&＃xff0c;可以执行不同的任务&＃xff0c;同时共享一个共同的特征提取基础&＃xff0c;完全直接从像素学习。
　　我们的方法可能仍然可以在几个方法上提到提升。&＃xff08;i&＃xff09;对于定位&＃xff0c;我们当前不支持通过整个网络&＃xff0c;这样做可能会提高性能。&＃xff08;ii&＃xff09;我们使用l2损失&＃xff0c;而不是直接优化衡量性能的IOU标准。交换损失应该是可能的&＃xff0c;因为IOU仍然是可区分的&＃xff0c;只要有一些重叠。&＃xff08;iii&＃xff09;边界框的替代参数化可以帮助对输出进行去相关&＃xff0c;这将有助于网络训练。