热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

SIMPLEONLINEANDREALTIMETRACKING(SORT)论文阅读笔记

论文地址:https:arxiv.orgabs1602.00763论文题目:SIMPLEONLINEANDREALTIMETRACKINGgithu

论文地址:https://arxiv.org/abs/1602.00763

论文题目:SIMPLE ONLINE AND REALTIME TRACKING

github地址:https://github.com/abewley/sort



摘要

本文探讨了一种实用的多 目标跟踪方法,旨在有效地联合 目标做在线和实时地应用。为此,检测质量被认为是影响跟踪性能的关键因素,其中改变检测器可以改善追踪率高达18.9%。尽管只使用了一种将大家熟悉的卡尔曼滤波匈牙利算法 作为跟踪组建的初级结合,该方法实现了与现有最先进跟踪技术相当的精度。此外,由于我们的跟踪简单化,跟踪器以260Hz的速率做更新,比其他先进跟踪器快了20倍。

关键词——计算机视觉,多目标跟踪,检测,数据关联



I 介绍

本文提出一种针对多目标跟踪(MOT)问题的跟踪检测框架的 精简实现,其中每帧对象以边界框形式检测出。与许多基于batch的跟踪方法相比,这项工作主要针对在线跟踪,其中只有前一帧和当前帧的检测被呈现于跟踪器。此外,重点要 强调的是促进实时跟踪的效率,并促进更大程度的应用,如自动驾驶中的行人跟踪。

MOT问题可看做是数据关联问题,其目的是将视频序列帧中的检测结果相关联。为了帮助数据关联过程,跟踪器使用各种方法来构建场景中目标 们的运动模型和外观特性模型。本文采用的方法是通过建立在视觉MOT benchmark上的观测结果上的。首先,有很多较为成熟的数据关联技术,如多假设跟踪( MHT)和联合概率数据关联(JPDA)占据了很多MOT benchmark的前几名。其次,唯一没有使用聚合通道滤波(ACF)检测器也是排名靠前的跟踪器,暗示检测质量可以压过其他跟踪器。此外,需要权衡准确性和速度,因为大多数准确性高的跟踪器都面临实时性低的问题。如题1所示。本文旨在 探索如何简化MOT以及性能如何优化的方法。

与Occam的Razor保持一致,在跟踪中检测部位之外的其他外观特性将会无视,而仅仅边界框位置和尺寸大小将作为运动估计和数据关联。此外,短期和长期的遮挡问题也将忽略掉,因为它们明确会给框架带来不必要的复杂性。我们认为以对象REID形式引入复杂性会给跟踪带来很大的开销——进而影响实时性应用。

本文侧重于高效可靠地处理常见的帧 到帧间的关联,利用目标检测的最新进展来解决检测问题,不做目标检测误差针对性解决。此外,两种经典而又及其有效的方法,卡尔曼滤波和匈牙利算法分别用作处理跟踪中的运动预测和数据关联。本文方法目前只应用在跟踪多种环境中的行人,考虑基于CNN的灵活性,自然能够用于其他目标类别。

本文主要贡献:

  • 利用基于CNN的检测器;
  • 呈现了一种基于卡尔曼滤波和匈牙利算法的 实用性跟踪方法;

文章结构如下:Section 2简单回顾多目标跟踪相关研究。Section 3 描述本文提出的精简的跟踪框架。 Section 4提出的框架在标准对比数据集中的表现。 Section 5 知识点概述,以及未来改进。



3. 方法

本文提出的方法可分为这几个关键部分:目标检测,将目标状态传递到未来帧中,将传入的状态信息与现有检测结果关联,管理跟踪对象的生命周期。

3.1 目标检测

为了利用基于CNN的快速检测,我们利用Faster RCNN检测框架。Faster RCNN是一个端到端的框架,由两个stage构成。第一个stage用于提取特征并提供区域,第二个stage会在这些提供区域做目标分类。该框架的优势是两个stage能共享参数,为目标检测提供了好的检测效率。此外,网络结构本身可设计性强,可快速试验不同架构来提高检测性能。

这里,我们比较两个提供的网络Zeiler , Fergus 和Faster RCNN的差异[21,22]。我们使用在Pascal VOC上训练得到的参数作为默认参数。我们只对行人感兴趣,无视其他类别,并且将那些检测概率置信度高于50%的目标传到跟踪框架

 实验发现,对比Faster RCNN和ACF检测,检测质量对跟踪质量有显著的影响。这个现象早已在 使用视频序列验证集的现有在线跟踪器MDP和提出的那些跟踪器中存在[12]。表1 显示最好的检测器Faster RCNN(VGG16)会使得MDP和本文提出的方法的跟踪精度都达到最佳

3.2 估计模型

这里我们描述了目标模型,例如,外观模型和运动模型,将会被传到下一帧中用作目标身份识别(ID)。我们近似认为每个目标的帧间位移满足线性恒速模型,并且每个目标间的运动是独立的,和相机的运动也是独立的。那每个目标的状态模型可以描述为:

x = [u, v, s, r, u,˙ v,˙ s˙] T

其中u和v代表目标中心的水平和垂直的像素位置;

s和r分别表示:目标的尺度(面积) , 目标框bbox的比例值(注:比例r被认为是常数);

当一个目标被检测时,检测框将用于更新目标的状态,其中速度分量将用kalman滤波框架来解决[14]。如果没有检测,目标的状态用线性速度模型来预测,无矫正过程

3.3 数据关联

在为现有目标分配检测时,每个目标框的bbox几何框都是通过预测当前帧新的位置估计得到的。assignment cost matrix 分配代价矩阵通过每个检测结果所有现有目标的预测框 间的IOU距离计算得到。分配方法通过使用匈牙利算法得到最佳优化。此外,到检测到的IOU与预测目标物间IOU小于IOUmin阈值时,检测的物体将被拒绝分配。

我们发现边界框的IOU距离能够潜在解决因目标移动造成的短时间遮挡问题。具体地说,当目标物被遮挡物遮挡时,只有遮挡物被检测出来,由于IOU距离适当地支持具有类似尺度目标的检测。这使得遮挡物目标需要通过检测得到矫正,而被遮挡的目标不受影响,因为没有分配任务。

3.4 创建与输出跟踪ID

当目标进入和离开图像时,唯一的ID需要创建或者销毁。用于创建跟踪器时,我们认为任何检测结果重叠小于IOUmin时,存在没有被跟踪的对象。使用边界框的几何图形来初始化跟踪器,并使速度设置为0。由于速度此时速度未被观测到,初始速度分量的协方差很高,反应了这种不确定性。此外,新的跟踪器需要经历试用期,即目标物需要与检测结果相关联积累到足够才能防止误追踪。

当跟踪器未被检测到TLost帧时,将终止这个跟踪器。这么做可以防止跟踪器数量的无线增长,以及长时间未通过检测来得到矫正的局部误差增长。在所有实验中,TLost设置为1有有两个原因:第一,恒定速度模型在真实动力学模型中是个很差的预测模型;第二,我们主要关注帧和帧之间的跟踪,而目标REID超出本工作范围。此外,早期删除目标有助于提高效率。如果目标重新出现,则会隐式分配新的ID来跟踪。



4 实验

在MOT数据集上做评估。

4.1 Metrics

• MOTA(↑): Multi-object tracking accuracy [25].

• MOTP(↑): Multi-object tracking precision [25].

• FAF(↓): number of false alarms per frame.

• MT(↑): number of mostly tracked trajectories. I.e. target has the same label for at least 80% of its life span.

• ML(↓): number of mostly lost trajectories. i.e. target is not tracked for at least 20% of its life span.

• FP(↓): number of false detections.

• FN(↓): number of missed detections.

• ID sw(↓): number of times an ID switches to a different previously tracked object [24].

• Frag(↓): number of fragmentations where a track is interrupted by miss detection

↑ :表示越高越好,↓ :表示越低越好;

 


推荐阅读
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 如何在C#中配置组合框的背景颜色? ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 在C#中开发MP3播放器时,我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构,如字典或数组,对于优化性能至关重要。字典能够提供快速的键值对查找,而数组则在连续存储和遍历方面表现优异。根据具体需求,合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文深入探讨了CGLIB BeanCopier在Bean对象复制中的应用及其优化技巧。相较于Spring的BeanUtils和Apache的BeanUtils,CGLIB BeanCopier在性能上具有显著优势。通过详细分析其内部机制和使用场景,本文提供了多种优化方法,帮助开发者在实际项目中更高效地利用这一工具。此外,文章还讨论了CGLIB BeanCopier在复杂对象结构和大规模数据处理中的表现,为读者提供了实用的参考和建议。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法,该算法能够生成更加灵活和精确的形状轮廓,避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性,还增强了对复杂图像区域的适应能力。 ... [详细]
  • Java 模式原型在游戏服务器架构中的应用与优化 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • DAO(Data Access Object)模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法,它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 汽车电子架构与CAN网络基础解析——鉴源实验室专业解读 ... [详细]
author-avatar
daoyuanzhi
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有