多目标追踪——【Transformer】MOTR:EndtoEndMultipleObjectTrackingwithTRansformer

作者：淡淡木香coolgirl | 来源：互联网 | 2023-10-12 19:49

目录文章侧重点将ObjectObjectObjectQueryQueryQuery变成TrackTrackTrackQueryQueryQuery需要解决的问题总体网络结构——时序

受到DERT启发&＃xff0c;将目标检测中的 $O bj ec t$ $Q u ery$ 迁移到多目标追踪中&＃xff0c;构造了 $T r a c k$ $Q u ery$ 。这个出发点也决定MOTR也是一个基于检测的追踪。
当前许多基于检测的追踪方法是外观建模&＃43;运动建模 (后置处理&＃xff0c;如卡尔曼滤波等)&＃xff0c;而MOTR提出了时序融合网络&＃xff0c;利用 $T r a c k$ $Q u ery$ 的逐帧更新&＃xff0c;同时对外观和运动建模。
MOTR为了保证时序建模的有效性&＃xff0c;提出了基于轨迹的标签构造【tracklet-aware label assignment】训练策略&＃43;联合平均损失【collective average loss】增强模型的时序建模。

将

O bj ec t

Q u ery

变成

T r a c k

Q u ery

需要解决的问题

通常来讲&＃xff0c;虽然目标检测与目标跟踪都是CV领域&＃xff0c;但由于下端的根本任务不同&＃xff0c;所以直接套用肯定有问题&＃xff0c;所以要仔细设计。

用一个 $T r a c k$ $Q u ery$ 追踪同一个目标。 因为DERT中的 $O bj ec t$ $Q u ery$ 是基于每一帧识别&＃xff0c;每一个目标和 $O bj ec t$ $Q u ery$ 并不存在对应关系&＃xff0c;如下图(a)。但多目标追踪需要对序列中每个目标生成追踪轨迹&＃xff0c;这必然要求目标轨迹的一致性&＃xff0c;不能发生ID Switch的问题。 这就意味着目标检测&＃43;目标轨迹匹配都要用 $T r a c k$ $Q u ery$ 来实现&＃xff0c;这也是端到端的精髓了&＃xff0c;取消后置处理。本文引入基于轨迹的标签构造【tracklet-aware label assignment】训练策略&＃xff0c;使得用同一个ID的边界框去监督训练检测&＃43;匹配的过程。
对新出现目标和消失目标的处理。 因为多目标追踪中会面临某个目标突然消失或突然出现等情况&＃xff0c;所以固定长度的 $T r a c k$ $Q u ery$ 并无法满足实际的需求。故本文提出了两个变量集合—— $T r a c k$ $Q u ery$ &＃xff08;可变长度&＃xff09;和 $De t ec t$ $Q u ery$ &＃xff08;固定长度&＃xff09;来处理目标出现和消失等情况。 如上图(b)&＃xff0c;对于每一帧都要迭代式更新 $T r a c k$ $Q u ery$ &＃xff0c;将消失的目标将其对应的 $T r a c k$ $Q u ery$ 删去&＃xff0c;并且每一帧用 $De t ec t$ $Q u ery$ 检测该帧有多少目标&＃xff0c;新目标通过 $De t ec t$ $Q u ery$ 检测出来加入 $T r a c k$ $Q u ery$ 的集合中。具体过程如下图所示&＃xff1a;

总体网络结构——时序融合网络

在这里插入图片描述
可以看到&＃xff0c;上图的结构解析如下&＃xff1a;

Enc 表示特征提取阶段&＃xff1a;Backbone网络&＃43;Deformable DERT的Encoder&＃xff1b;
Dec 表示Deformable DERT的Decoder。
- 在第一帧由于追踪目标还未出现&＃xff0c;故输入是固定长度的 $q_d$ 和为空集的 $q_{tr}$ &＃xff0c;而后续帧的输入就是 $q_d$ 和上一帧传递的 $q_{tr}$ 。
- 输出是中间态特征&＃xff0c;用于生成追踪预测结果和QIM的输入。

QIM——Query交互模块

在这里插入图片描述
此模块的作用是处理目标的出现和消失等情况。图中的分数表示Head预测追踪目标的分类得分。

输入&＃xff1a;Decoder输出的中间态特征&＃xff0c;如上图最左侧输入。黄色部分表示 $q_d$ &＃xff0c;橙色为 $q_{tr}$ 。
第一步&＃xff1a;将其和Head预测追踪目标的分类得分&＃xff0c;分别输入到处理(a)目标出现、(b)目标消失两个分支中。这里分别设定了两个阈值作为filter&＃xff0c;筛选有效的query。
第二步&＃xff1a;对于 (a)目标出现分支中&＃xff0c;将分类分数大于阈值的检测目标视为新增目标。
第三步&＃xff1a;对于 (b)目标消失分支中&＃xff0c;当筛选出新的 $T r a c k$ $Q u ery$ 之前&＃xff0c;要经过【时序增强网络】TAN &＃xff0c;该网络本质是一个self-attention机制。输入是本帧的目标query $q_{tr}^i$ 、第一步(b)分支输出的中间态特征。该输出是下一帧的追踪目标。
输出&＃xff1a;第二步与第三步的输出拼接起来为下一帧的追踪目标 $q_{tr}^{i&＃43;1}$ 。

训练逻辑

Tracklet-Aware Label Assignment

【目的是为 $T r a c k$ $Q u ery$ 对轨迹与目标的一对一关系建模。】
TALA 有两种策略&＃xff0c;分别对应着 $De t ec t$ $Q u ery$ 和 $T r a c k$ $Q u ery$ 的训练策略

针对 $De t ec t$ $Q u ery$ &＃xff1a;沿用DERT中的检测策略专门来检测追踪序列中每一帧出现的新目标。训练策略是对于 $De t ec t$ $Q u ery$ 与新增目标的GroundTruth进行双向匹配。
针对 $T r a c k$ $Q u ery$ &＃xff1a;本文设计一个目标一致的训练策略。本帧的 $T r a c k$ $Q u ery$ 由上一帧的 $T r a c k$ $Q u ery$ &＃43; $De t ec t$ $Q u ery$ 。对于第一帧&＃xff0c; $T r a c k$ $Q u ery$ 为空集。

Collective Average Loss

【目的是为 $T r a c k$ $Q u ery$ 对时序信息的传递进行前后帧建模。】
通常的训练策略是计算帧的loss&＃xff0c;如此策略忽略了序列中存在的关于目标的运动信息。故本文设计了一个联合平均损失预测以video clip为基本单位的损失。联合平均损失&＃61;(单帧的追踪损失&＃43;单帧的检测损失)之和 / 帧数。
在这里插入图片描述

与强同学。
在这里插入图片描述

推荐阅读

default
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
default
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
default
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
web
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
sum
Unity 客户端框架设计：UI管理系统的构建

本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ... [详细]

蜡笔小新 2024-12-27 10:28:40
window
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
sum
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
perl
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
post
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
config
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
text
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
sum
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
runtime
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
default
解决Element UI中Select组件创建条目为空时报错的问题

本文介绍如何在Element UI的Select组件中使用allow-create属性创建新条目，并处理创建条目为空时出现的错误。我们将详细说明filterable属性的必要性，以及default-first-option属性的作用。 ... [详细]

蜡笔小新 2024-12-26 12:39:46
window
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14

淡淡木香coolgirl

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章