这篇论文最近被TCSVT接收,其主要任务为视频文本检索,并主要针对于视频特征表示学习。由于人们阅读时,通常会首先阅读概述,然后在进行精读,受这一阅读策略的启发,本文提出了一种视频特征学习方法(RIVRL)来表示视频, 它包含两个分支:一个预览分支和一个精读分支,顾名思义,预览分支用来捕捉视频的概述信息,精读分支用来捕捉视频中更加深层次的信息。
![](https://img.php1.cn/3cd4a/1eebe/cd5/0a0ce631ec450943.webp)
然而在该任务中,如图1所示,类似的视频特征学习的多分支范式往往都是独立的,然而作者认为,尽管这种方法取得了很好的性能,但作者认为这样的独立多分支范式是次优的。根据作者的观察,当两个分支独立学习时,两分支都倾向于学习视频中的主要对象,而忽略它具体的关键细节。因此,为了加强多个分支之间的互补性,作者设计了预览感知注意力,使得精读分支可以感知到预览分支所捕捉到的视频的概述信息,以捕捉视频中更加精确且细粒度的视频信息。
Method
![](https://img8.php1.cn/3cdc5/15579/696/3d3066472bcd80fd.jpeg)
Previewing Branch
该分支主要用来捕捉视频中的概述信息,是一个轻量级的分支,通过双向GRU来提取一个序列特征
![](https://img8.php1.cn/3cdc5/15579/696/04b3c8c46fde3512.jpeg)
,然后将其进行平均池化得到一个向量特征 ,
Intensive-Reading Branch
该分支主要用来学习更深次的视频特征信息,受n-gram语言模型的启发,作者将n个连续的帧作为一个视频片段,其主要通过使用一个特定大小的滑动窗口将视频划分成一个片段序列,作者这里使用了多个不同大小的滑动窗口,进一步得到了多个不同长度的片段特征序列,作为多粒度的特征表示。
其具体实现方式为,首先给定一个视频,使用一个全连接层,将帧级特征序列映射到一个低维特征空间,使用不同尺寸的1d-cnn来聚合临近的帧级特征得到一个segment feature,
![](https://img8.php1.cn/3cdc5/15579/696/f92bdd5b375ef43f.jpeg)
,
![](https://img8.php1.cn/3cdc5/15579/696/03e8f92e8ca0270d.jpeg)
Previewing-aware Attention
得到了多粒度的视频特征表示,作者旨在对其进行增强,通过预览分支得到的概述信息进行指导,自适应的选择视频片段特征。
作者借鉴了Transformer中多头注意力,由于多头注意力的计算复杂度是平方级的,这里作者设计了一种更为轻量级的预览感知注意力,将预览分支的输出特征向量作为query,精读分支的片段特征序列作为key和value,由于精读特征包含了多粒度的特征表示,因此这里多个粒度并行执行,(和多头的思想很像的,这里是多个粒度执行),和Transformer一样,后面使用了FFN:
![](https://img8.php1.cn/3cdc5/15579/696/1a8d887178a958b0.jpeg)
![](https://img8.php1.cn/3cdc5/15579/696/836757a783f2b93b.png)
![](https://img8.php1.cn/3cdc5/15579/696/6f9949d00af71f08.png)
最终将不同粒度的感知注意力的输出特征向量拼接起来作为最终的精读分支的特征表示:
![](https://img.php1.cn/3cd4a/1eebe/cd5/43a754c811e7ec5c.webp)
文本编码,作者这里使用了Dual Encoding的多级编码方法,就不在过多阐述。
Video-Text matching
利用了hybrid space的思想,作者采用了double hybrid space的策略,将预览分支和精读分支的视频特征分别与文本特征进行匹配,最终的相似度也为两个分支与文本分支的相似度之和。
![](https://img.php1.cn/3cd4a/1eebe/cd5/8be1ccb5166feb93.webp)
Experiments
Comparison with the State-of-the-art
这篇论文在MSRVTT,TGIF, VATEX三个数据集上进行了实验:
![](https://img8.php1.cn/3cdc5/15579/696/90470767cdce9e18.jpeg)
带有BERT的RIVRL实现了显著的性能提升。可以与目前的 state-of-the-art T2VLAD相比较,其使用了7种视频特征相比,该模型只利用了两个视觉特征,而且比T2VLAD更为轻量。
![](https://img8.php1.cn/3cdc5/15579/696/fafb18b11f397edf.jpeg)
值得注意的是,在MV-Xu上,该模型在没有BERT的情况下的性能可与有BERT的SEA相比。sea使用了简单的均值池和三个独立的FClayers作为视频编码器,而该模型使用了两个依赖的分支来表示视频。结果表明了多依赖分支在视频表示中的有效性。
在TGIF和VATEX两个数据集上也均取得了最好的结果:
![](https://img8.php1.cn/3cdc5/15579/696/4088f6caa30d0264.jpeg)
![](https://img8.php1.cn/3cdc5/15579/696/3e8049e11a49f0cd.jpeg)
研究该模型在不同类型的视频上的表现,即视频复杂度和视频类别。并与Dual Encoding进行对比:
此外,作者还进行了一些定性的实验分析:
1)为了研究RIVRL学到了什么,作者在msrvtt上进行了视频到视频检索
该结果表明,预览分支能够捕获粗糙的语义相关性,而精读分支有能力获得更细粒度的语义相关性。
![](https://img8.php1.cn/3cdc5/15579/696/867e38ea06cbf2d2.jpeg)
如图5所示,第一行中的query视频为三个人在跳舞,而预览分支所捕捉到的是一群人在跳舞,精读分支捕捉到的是也是三个人在跳舞。
2)对改模型所学习到的注意力进行了可视化
该结果在一定程度上说明了所学习到的注意力的合理性。
![](https://img8.php1.cn/3cdc5/15579/696/7bf5789085ca79a2.jpeg)
第一个视频的单一场景中所有的帧几乎是相似的,学习到的帧级注意和片段级注意的权重也几乎相等。对于包含多个不同场景的视频,模型的注意力通常会选择传达视频语义的片段。
Ablation Study
1) Single branch vs. Multiple branches
![](https://img.php1.cn/3cd4a/1eebe/cd5/d84f9786330d9e41.png)
2) Dependent branches vs. Independent branches
![](https://img8.php1.cn/3cdc5/15579/696/22c6808f16a69df9.jpeg)
3) The effectiveness of multi-granularity segment representation
![](https://img8.php1.cn/3cdc5/15579/696/4242423e07da5615.jpeg)
4) The effectiveness of multi-head attention
![](https://img8.php1.cn/3cdc5/15579/696/a3021edac92a4075.jpeg)
5) The influence of dependency modeling
![](https://img8.php1.cn/3cdc5/15579/696/8817549a62a334c7.jpeg)
Video-to-Video Retrieval
![](https://img8.php1.cn/3cdc5/15579/696/7d3f58b4ffe3265c.jpeg)
Analysis on Model Complexity
![](https://img8.php1.cn/3cdc5/15579/696/245d7ef1d12e4c32.jpeg)
作者:李加贝
|关于深延科技|
![](https://img8.php1.cn/3cdc5/15579/696/d370ebf172b747b8.gif)
深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。