热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MomentsinTime:IBM-MIT联合提出最新百万规模视频动作理解数据集

在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之相伴的,今年也出现了多个新的大规模的视频理解数据集。近期,MIT-IBMWatsonAILab就推出了一个全新的百万规模视频理解

在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之相伴的,今年也出现了多个新的大规模的视频理解数据集。近期,MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time[1]。虽然没有之前的YouTube-8M数据集大,但应该是目前多样性,差异性最高的数据集了。该数据集的任务仍然为视频分类任务,不过其更专注于对“动作”的分类,此处的动作为广义的动作或动态,其执行者不一定是人,也可以是物体或者动物,这点应该是该数据集与现有数据集最大的区分。本文中简单的统称为“动作”。


本文主要对这篇数据集的论文进行介绍,数据集地址是Moments-in-Time。此外,该数据集也将参与ActivityNet Challenge 2018作为其中的一个任务。


数据集概览

这部分主要对数据集的基本情况和特性进行介绍,大概可以总结为以下几点

  • 共有100,0000个视频,每个视频的长度相同,均为3s
  • 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)
  • 动作主体可以是人,动物,物体乃至自然现象。
  • 数据集的类内差异和类间差异均很大。
  • 存在部分或完全依赖于声音信息的动作,如clapping(拍手)

由上述描述可以看出,由于超大的数据量以及多样性,这个数据集是相当难的,下图则为该数据集的一个例子。可以看出,一个动作类别可以由多种动作主体完成,从而从视觉上看的差异性相当的大,动作的概念可以说是相当抽象了。

下面我对作者构建这个数据集的方式进行介绍,这部分内容也有助于对该数据集的理解。


数据集的构建

1.建立动作的字典

该数据集采用的是先确定动作标签,再根据动作标签构建视频集合的方式。构建动作标签集合,在该数据集中即构建一个合适的动作字典。主要通过以下几个步骤实现

  • 参考[2]中的内容,选取4500个美式英语中最常用的动词
  • 按照词义对这4500个词进行聚类,一个动词可以属于多个聚类
  • 迭代的从最常见的聚类中选取最常见的动词加入目标字典
  • 最终从4500个初始动词中选取339个最常见的动词作为字典


2. 数据收集与标注

在确定好动词字典后,作者对每个动词,在多个视频网站上进行视频的爬取。这里的视频网站比较多,包含YouTube,Flicker,Vine等十几个网站,比起只用YouTube的ActivityNet,Kinectic等数据集在来源的丰富性上要高不少。

在爬完数据后,每个视频都是以 视频-动词 对的形式呈现,标注工作的主要目的就是确定视频是否可以用动词描述,所以是一个二分类的标注任务(此处作者的解释是,多分类的标注对于标注者难度太高,也容易错,故采用二分类的标注方式)。标注工作在近来大量数据集都采用的Amazon Mechanical Turk实现。

对于每个标注者,都会被分配64个待标注的动词-视频对以及10个已知真值的动词-视频对。在10个已知真值的动词-视频对中,只有标对9个及以上,该标注者的标注结果才会被认为是有效的。剩下的所有动词-视频对,都会被交由2个标注者,只有俩人的标注结果一致,该结果才会被采用。所以从标注角度来看,这个数据集的标签质量应该还是不错的。标注界面的样式如下图所示,可以看出还是相当简洁明了的。



数据集的数据分布

接下来我主要对该数据集的数据分布进行介绍,由于该数据集目前还没有正式放出,所以所有数据和图表均来自论文。


首先是数据集的类别分布:

  • 对于339个动作类别,共有超过100000个标注视频
  • 每个类别至少有1000个视频,每个类别视频数量的平均值是1757,中值是2775


类别与类别视频数量的关系图如下图所示。

接下来,作者介绍了数据集中动作主体的分布情况,如前所述动作主题可能是人,动物或一般物体。作者统计了不同类别视频中各类动作主题所占比例的分布,如下图所示。左侧的极端是“typing“,主体全部是人类,右边的极端是”overflowing”,动作主题基本不是人类。

最后,作者分析了数据集各个类别中依赖于声音的视频所在的比例。此处,依赖于声音的视频是指该视频无法从图像上判断出其包含的动作,而必须要听声音。从下图可以看出,有相当比例的视频是依赖于声音的,这点要增加了该数据集的挑战性。


场景、物体与动作之前的相关性探索

最后,作者通过一组简单的实验探索了各个数据集中 物体-场景-动作 之间的相关性。此处分析的视频数据集除了Moments in Time外, 还包括UCF-101, ActivityNet 1.3 以及Kinetics数据集。

这里的实验设置还蛮有趣的。作者分别采用了一个在ImageNet上训练的Resnet50用于物体分类,一个在Places数据集上训练的Resnet50用作场景分类。对于每个视频,均匀抽取3帧并利用两个网络进行检测并平均结果,可以得到一个物体label以及一个场景label。对于物体或场景label,作者通过贝叶斯公式来推断对应的动作类别,其中先验概率在数据集的训练集上计算获得。

实验结果如下表所示,可以得到以下几点结论:

  • 动作与场景以及物体均是相关的。
  • Moments in Time数据集中,动作与物体以及场景的相关性显著弱于其他几个数据集,这表明该数据集有更高的挑战性以及更大的难度。


个人讨论

Moments-in-Time数据集我觉得还是相当有趣以及有挑战性的,估计很快就会有不少人跟进来做这个数据集(显而易见需要比较大的计算资源…)。下面是我对于该数据集的一些讨论内容,包括优点以及一些个人存在疑惑的地方。


优点:

  • 数据集的大小和丰富程度很高,足以训练较复杂的视频分类模型。
  • 视频的长度统一为3s,这样的设计方便实验时进行处理,也使得数据集的尺寸不至于过大。
  • 数据标注的策略应该还是比较靠谱的,应该不太会有错误标注。


以上是几点明显的优点,但对于作者强调的几个数据集优点,我则存在一些疑惑:

  • 仅用动词定义动作:这个应该是这个数据集和其他数据集相比最大的一个差异点。作者认为通过该数据集能够学习一个泛化能力很强的动作概念,但在我看来这样的定义有些太过宽泛了。动词的含义常常依赖于其主语和谓语,单独的动词即便对于人类而言也常常是含义模糊的。此处可以参考今年ICCV上的[3]一文,我此前也写过一篇笔记:zhuanlan.zhihu.com/p/29 介绍这篇文章。这篇文章中一个重要的观点是,动作应该用动词-名词组合来定义,从而明确其含义。不过该数据集也是故意在此处模糊化从而增加类内差异,现在也不能够知道是否是一个好的设计了。
  • 动作的主体不一定是人:这点也是数据集作者有意设计,从而增加难度以及多样性。我也持有同样的对于定义不清晰的疑惑,比如人开门(“opening”)和风吹开了一扇窗户(”opening“)放在同一个类别中总感觉不太合理。此外,此处还有一个问题,尽管温中给出了动作主体的分析,但通过询问作者,第一版的数据集不会提供动作主体的label,而仅包含一个动作label。
  • 依赖声音的动作:这点我觉得倒是蛮好的,可以促进多模态方法的发展。但是同以上一点,该数据集在训练集中并没有告知这个视频中的动作是否是依赖与声音的。如果有相关的标签,我觉得会更有助于视频的理解吧。作者可能会在后续版本加上。

总体而言,这个新数据集还是很有趣且充满挑战的,与此前的多个主要关注人类动作的数据集在设定上有较大的差异。针对这个数据集,模型方面应该更注重于对动作概念的理解以及对较大的类内差异性的处理。期待之后针对该数据集的算法了。


本文投稿于AI科技评论公众号, 未经许可请勿转载


参考文献

[1] Monfort M, Zhou B, Bargal S A, et al. Moments in Time Dataset: one million videos for
event understanding[J].

[2] Salamon J, Jacoby C, Bello J P. A dataset and taxonomy for urban sound research[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 1041-1044.

[3] Sigurdsson G A, Russakovsky O, Gupta A. What Actions are Needed for Understanding
Human Actions in Videos?[J]. arXiv preprint arXiv:1708.02696, 2017.


推荐阅读
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大,单机上运行高斯朴素贝叶斯模型会变得很慢,因此考虑使用Spark来加速运行。然而,Spark的MLlib并没有实现高斯朴素贝叶斯模型,因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式,并对具有多个特征和类别的模型进行了讨论。最后,作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]
  • 广度优先遍历(BFS)算法的概述、代码实现和应用
    本文介绍了广度优先遍历(BFS)算法的概述、邻接矩阵和邻接表的代码实现,并讨论了BFS在求解最短路径或最短步数问题上的应用。以LeetCode中的934.最短的桥为例,详细阐述了BFS的具体思路和代码实现。最后,推荐了一些相关的BFS算法题目供大家练习。 ... [详细]
  • 我用Tkinter制作了一个图形用户界面,有两个主按钮:“开始”和“停止”。请您就如何使用“停止”按钮终止“开始”按钮为以下代码调用的已运行功能提供建议 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • 知识图谱表示概念:知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
author-avatar
MINT米田
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有