论文链接:https://arxiv.org/abs/2105.03247
通常来讲,虽然目标检测与目标跟踪都是CV领域,但由于下端的根本任务不同,所以直接套用肯定有问题,所以要仔细设计。
可以看到,上图的结构解析如下:
此模块的作用是处理目标的出现和消失等情况。图中的分数表示Head预测追踪目标的分类得分。
【目的是为
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query 对轨迹与目标的一对一关系建模。】
TALA 有两种策略,分别对应着
D
e
t
e
c
t
Detect
Detect
Q
u
e
r
y
Query
Query和
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query的训练策略
针对
D
e
t
e
c
t
Detect
Detect
Q
u
e
r
y
Query
Query :沿用DERT中的检测策略专门来检测追踪序列中每一帧出现的新目标。训练策略是对于
D
e
t
e
c
t
Detect
Detect
Q
u
e
r
y
Query
Query与新增目标的GroundTruth进行双向匹配。
针对
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query :本文设计一个目标一致的训练策略。本帧的
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query由上一帧的
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query+
D
e
t
e
c
t
Detect
Detect
Q
u
e
r
y
Query
Query。对于第一帧,
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query为空集。
【目的是为
T
r
a
c
k
Track
Track
Q
u
e
r
y
Query
Query 对时序信息的传递进行前后帧建模。】
通常的训练策略是计算帧的loss,如此策略忽略了序列中存在的关于目标的运动信息。故本文设计了一个联合平均损失预测以video clip为基本单位的损失。联合平均损失=(单帧的追踪损失+单帧的检测损失)之和 / 帧数。
与强同学。