论文地址:https://arxiv.org/abs/1602.00763
论文题目:SIMPLE ONLINE AND REALTIME TRACKING
github地址:https://github.com/abewley/sort
摘要
本文探讨了一种实用的多 目标跟踪方法,旨在有效地联合 目标做在线和实时地应用。为此,检测质量被认为是影响跟踪性能的关键因素,其中改变检测器可以改善追踪率高达18.9%。尽管只使用了一种将大家熟悉的卡尔曼滤波和匈牙利算法 作为跟踪组建的初级结合,该方法实现了与现有最先进跟踪技术相当的精度。此外,由于我们的跟踪简单化,跟踪器以260Hz的速率做更新,比其他先进跟踪器快了20倍。
关键词——计算机视觉,多目标跟踪,检测,数据关联
I 介绍
本文提出一种针对多目标跟踪(MOT)问题的跟踪检测框架的 精简实现,其中每帧对象以边界框形式检测出。与许多基于batch的跟踪方法相比,这项工作主要针对在线跟踪,其中只有前一帧和当前帧的检测被呈现于跟踪器。此外,重点要 强调的是促进实时跟踪的效率,并促进更大程度的应用,如自动驾驶中的行人跟踪。
MOT问题可看做是数据关联问题,其目的是将视频序列帧中的检测结果相关联。为了帮助数据关联过程,跟踪器使用各种方法来构建场景中目标 们的运动模型和外观特性模型。本文采用的方法是通过建立在视觉MOT benchmark上的观测结果上的。首先,有很多较为成熟的数据关联技术,如多假设跟踪( MHT)和联合概率数据关联(JPDA)占据了很多MOT benchmark的前几名。其次,唯一没有使用聚合通道滤波(ACF)检测器也是排名靠前的跟踪器,暗示检测质量可以压过其他跟踪器。此外,需要权衡准确性和速度,因为大多数准确性高的跟踪器都面临实时性低的问题。如题1所示。本文旨在 探索如何简化MOT以及性能如何优化的方法。
与Occam的Razor保持一致,在跟踪中检测部位之外的其他外观特性将会无视,而仅仅边界框位置和尺寸大小将作为运动估计和数据关联。此外,短期和长期的遮挡问题也将忽略掉,因为它们明确会给框架带来不必要的复杂性。我们认为以对象REID形式引入复杂性会给跟踪带来很大的开销——进而影响实时性应用。
本文侧重于高效可靠地处理常见的帧 到帧间的关联,利用目标检测的最新进展来解决检测问题,不做目标检测误差针对性解决。此外,两种经典而又及其有效的方法,卡尔曼滤波和匈牙利算法分别用作处理跟踪中的运动预测和数据关联。本文方法目前只应用在跟踪多种环境中的行人,考虑基于CNN的灵活性,自然能够用于其他目标类别。
本文主要贡献:
- 利用基于CNN的检测器;
- 呈现了一种基于卡尔曼滤波和匈牙利算法的 实用性跟踪方法;
文章结构如下:Section 2简单回顾多目标跟踪相关研究。Section 3 描述本文提出的精简的跟踪框架。 Section 4提出的框架在标准对比数据集中的表现。 Section 5 知识点概述,以及未来改进。
3. 方法
本文提出的方法可分为这几个关键部分:目标检测,将目标状态传递到未来帧中,将传入的状态信息与现有检测结果关联,管理跟踪对象的生命周期。
3.1 目标检测
为了利用基于CNN的快速检测,我们利用Faster RCNN检测框架。Faster RCNN是一个端到端的框架,由两个stage构成。第一个stage用于提取特征并提供区域,第二个stage会在这些提供区域做目标分类。该框架的优势是两个stage能共享参数,为目标检测提供了好的检测效率。此外,网络结构本身可设计性强,可快速试验不同架构来提高检测性能。
这里,我们比较两个提供的网络Zeiler , Fergus 和Faster RCNN的差异[21,22]。我们使用在Pascal VOC上训练得到的参数作为默认参数。我们只对行人感兴趣,无视其他类别,并且将那些检测概率置信度高于50%的目标传到跟踪框架。
实验发现,对比Faster RCNN和ACF检测,检测质量对跟踪质量有显著的影响。这个现象早已在 使用视频序列验证集的现有在线跟踪器MDP和提出的那些跟踪器中存在[12]。表1 显示最好的检测器Faster RCNN(VGG16)会使得MDP和本文提出的方法的跟踪精度都达到最佳。
3.2 估计模型
这里我们描述了目标模型,例如,外观模型和运动模型,将会被传到下一帧中用作目标身份识别(ID)。我们近似认为每个目标的帧间位移满足线性恒速模型,并且每个目标间的运动是独立的,和相机的运动也是独立的。那每个目标的状态模型可以描述为:
x = [u, v, s, r, u,˙ v,˙ s˙] T
其中u和v代表目标中心的水平和垂直的像素位置;
s和r分别表示:目标的尺度(面积) , 目标框bbox的比例值(注:比例r被认为是常数);
当一个目标被检测时,检测框将用于更新目标的状态,其中速度分量将用kalman滤波框架来解决[14]。如果没有检测,目标的状态用线性速度模型来预测,无矫正过程。
3.3 数据关联
在为现有目标分配检测时,每个目标框的bbox几何框都是通过预测当前帧新的位置估计得到的。assignment cost matrix 分配代价矩阵通过每个检测结果和所有现有目标的预测框 间的IOU距离计算得到。分配方法通过使用匈牙利算法得到最佳优化。此外,到检测到的IOU与预测目标物间IOU小于IOUmin阈值时,检测的物体将被拒绝分配。
我们发现边界框的IOU距离能够潜在解决因目标移动造成的短时间遮挡问题。具体地说,当目标物被遮挡物遮挡时,只有遮挡物被检测出来,由于IOU距离适当地支持具有类似尺度目标的检测。这使得遮挡物目标需要通过检测得到矫正,而被遮挡的目标不受影响,因为没有分配任务。
3.4 创建与输出跟踪ID
当目标进入和离开图像时,唯一的ID需要创建或者销毁。用于创建跟踪器时,我们认为任何检测结果重叠小于IOUmin时,存在没有被跟踪的对象。使用边界框的几何图形来初始化跟踪器,并使速度设置为0。由于速度此时速度未被观测到,初始速度分量的协方差很高,反应了这种不确定性。此外,新的跟踪器需要经历试用期,即目标物需要与检测结果相关联积累到足够才能防止误追踪。
当跟踪器未被检测到TLost帧时,将终止这个跟踪器。这么做可以防止跟踪器数量的无线增长,以及长时间未通过检测来得到矫正的局部误差增长。在所有实验中,TLost设置为1有有两个原因:第一,恒定速度模型在真实动力学模型中是个很差的预测模型;第二,我们主要关注帧和帧之间的跟踪,而目标REID超出本工作范围。此外,早期删除目标有助于提高效率。如果目标重新出现,则会隐式分配新的ID来跟踪。
4 实验
在MOT数据集上做评估。
4.1 Metrics
• MOTA(↑): Multi-object tracking accuracy [25].
• MOTP(↑): Multi-object tracking precision [25].
• FAF(↓): number of false alarms per frame.
• MT(↑): number of mostly tracked trajectories. I.e. target has the same label for at least 80% of its life span.
• ML(↓): number of mostly lost trajectories. i.e. target is not tracked for at least 20% of its life span.
• FP(↓): number of false detections.
• FN(↓): number of missed detections.
• ID sw(↓): number of times an ID switches to a different previously tracked object [24].
• Frag(↓): number of fragmentations where a track is interrupted by miss detection
↑ :表示越高越好,↓ :表示越低越好;