论文地址:https://arxiv.org/pdf/1808.01244.pdf
代码地址:https://github.com/umich-vl/CornerNet
ECCV2018, ECCV的全称是European conference on computer vision(欧洲计算机视觉国际会议),两年一次,是计算机视觉三大会议(ICCV,CVPR)之一。每次会议在全球范围录用论文300篇左右,主要的录用论文都来自每过,欧洲等顶尖实验室及研究所,中国大陆的论文数量一般在10-20篇左右。ECCV2010的论文录取率为27%.
ECCV是一个欧洲会议,欧洲人一般比较看中理论,但是从最近一次会议来看,似乎大家也开始注重应用了,oral里面的demo非常之多,演示效果很好,让人赏心悦目,叹为观止。不过欧洲的会有一个不好,就是他们的人通常英语口音很重,有些人甚至不太会说英文,所以开会和交流的时候,稍微有些费劲。
摘要:
论文提出了一种新的目标检测方法,使用单个卷积神经网络将目标边界框检测为一对关键点(即边界框的左上角和右下角),通过将目标检测为成对关键点,消除了现有的one stage检测器设计中对一组anchors的需要,除了上述新颖的构想,文章还引入了corner pooling,这是一种新型的池化层,可以帮助网络中更好地定位边界框的角点。CornerNet在MS COCO上实现了42.1%的AP,优于所有现有的one stage检测器。
介绍:
....
本文提出了cornerNet,这是一种新的one stage目标检测方法,可以消除anchor boxes. 将一个目标物体检测为一对关键点--边界框的左上角和右下角。我们使用单个卷积网络来预测同一物体类别的所有实例的左上角的热土,所有右下角的热土,以及每个检测到的角点的嵌入向量(embedding vector for each detected corner).嵌入用于对属于同一目标的一对角点进行分组---训练网络以预测他们的类似嵌入(The embeddings serve to group a pair of corners that belong to the same object--the network is trained to predict similar embeddings for them.)论文的方法受到Newell等人在多人姿态估计上下文中关联嵌入的启发。图1说明了论文方法的整体流程。
图1、我们将一个目标检测为一对组合在一起的边界框角点。卷积网络输出一个左上角热图和一个右下角热图,并输出每个检测到的焦点的嵌入向量。训练网络以预测术语同一个目标的焦点的类似嵌入。
Cornernet的另一个新颖组件是corner pooling,这是一种新型的池化层,可帮助卷积网络更好地定位边界框的角点,边界框的一角通常在目标之外,参考下图。
在这种情况下,焦点不能根据当前的信息进行定位,相反,为了确定像素位置是否有左上角,我们需要水平地向右看目标的最上面边界,垂直的向底部看物体的最左边边界。这激发了我们的corner pooling layer: 它包含两个特征图,在每个像素位置,它最大池化从第一个特征映射到右侧的所有特征向量,最大池化从第二个特征映射下面的所有特征向量,然后将两个池化结果一起添加,如下图:
图3 corner pooling 对于每个通道,我们采用两个方向(红线)的最大值(红点),每个方向都来自一个单独的特征图,并将两个最大值加在一起(蓝点)
我们假设了两个原因,为什么检测角点corners会比检测边界框中心或proposals更好些。首先,box的中心可能更难以定位,因为它取决于目标的所有4个边,而定位corner只需要两个边,因此更容易,甚至更多的corner pooling,它编码一些明确的关于corner定义的先验信息。其次,corner提供了一种更有效的方式来密集地离散边界框的空间,我们只需要用O(wh) 个corners来表示
3、2检测角点
我们预测两组热图,一组用于左上角,另一组用于右下角。每组热图具有C个通道,其中C是分类的数量,并且大小为H×W,没有背景通道。每个通道都是一个二进制掩码,用于表示该类的corner位置。
对于每个corner,有一个ground-truth正位置,其他所有的位置都是负值。在训练期间,我们没有同等地惩罚负位置,而是减少对正位置半径内的负位置给予的惩罚。这是因为如果一对假corner检测器靠近他们各自的ground-truth位置,它仍然可以产生一个与ground-truth充分重叠的边界框,我们通过确保半径内的一对点生成的边界框与ground-truth的iou>t(实验中t设置为0.7)来确定物体的大小,从而确定半径。给定半径,惩罚的减少量由非标准化的2D高斯
其中心位于正位置,是半径的1/3。
论文设计了一个局部损失(focal loss)的变体
未完待续