MomentsinTime：IBM-MIT联合提出最新百万规模视频动作理解数据集

作者：MINT米田 | 来源：互联网 | 2023-08-18 11:34

在过去一年中，视频理解相关的领域涌现了大量的新模型、新方法，与之相伴的，今年也出现了多个新的大规模的视频理解数据集。近期，MIT-IBMWatsonAILab就推出了一个全新的百万规模视频理解

在过去一年中，视频理解相关的领域涌现了大量的新模型、新方法，与之相伴的，今年也出现了多个新的大规模的视频理解数据集。近期，MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time[1]。虽然没有之前的YouTube-8M数据集大，但应该是目前多样性，差异性最高的数据集了。该数据集的任务仍然为视频分类任务，不过其更专注于对“动作”的分类，此处的动作为广义的动作或动态，其执行者不一定是人，也可以是物体或者动物，这点应该是该数据集与现有数据集最大的区分。本文中简单的统称为“动作”。

本文主要对这篇数据集的论文进行介绍，数据集地址是Moments-in-Time。此外，该数据集也将参与ActivityNet Challenge 2018作为其中的一个任务。

数据集概览

这部分主要对数据集的基本情况和特性进行介绍，大概可以总结为以下几点

共有100,0000个视频，每个视频的长度相同，均为3s
每个视频有一个动作标签（后续版本可能拓展为多标签），此处的动作仅为动词，比如“opening”就为一个标签（与之不同，其他数据集经常会采用动名词组的形式如”opening the door”）
动作主体可以是人，动物，物体乃至自然现象。
数据集的类内差异和类间差异均很大。
存在部分或完全依赖于声音信息的动作，如clapping（拍手）

由上述描述可以看出，由于超大的数据量以及多样性，这个数据集是相当难的，下图则为该数据集的一个例子。可以看出，一个动作类别可以由多种动作主体完成，从而从视觉上看的差异性相当的大，动作的概念可以说是相当抽象了。

下面我对作者构建这个数据集的方式进行介绍，这部分内容也有助于对该数据集的理解。

数据集的构建

1.建立动作的字典

该数据集采用的是先确定动作标签，再根据动作标签构建视频集合的方式。构建动作标签集合，在该数据集中即构建一个合适的动作字典。主要通过以下几个步骤实现

参考[2]中的内容，选取4500个美式英语中最常用的动词
按照词义对这4500个词进行聚类，一个动词可以属于多个聚类
迭代的从最常见的聚类中选取最常见的动词加入目标字典
最终从4500个初始动词中选取339个最常见的动词作为字典

2. 数据收集与标注

在确定好动词字典后，作者对每个动词，在多个视频网站上进行视频的爬取。这里的视频网站比较多，包含YouTube，Flicker，Vine等十几个网站，比起只用YouTube的ActivityNet，Kinectic等数据集在来源的丰富性上要高不少。

在爬完数据后，每个视频都是以视频-动词对的形式呈现，标注工作的主要目的就是确定视频是否可以用动词描述，所以是一个二分类的标注任务（此处作者的解释是，多分类的标注对于标注者难度太高，也容易错，故采用二分类的标注方式）。标注工作在近来大量数据集都采用的Amazon Mechanical Turk实现。

对于每个标注者，都会被分配64个待标注的动词-视频对以及10个已知真值的动词-视频对。在10个已知真值的动词-视频对中，只有标对9个及以上，该标注者的标注结果才会被认为是有效的。剩下的所有动词-视频对，都会被交由2个标注者，只有俩人的标注结果一致，该结果才会被采用。所以从标注角度来看，这个数据集的标签质量应该还是不错的。标注界面的样式如下图所示，可以看出还是相当简洁明了的。

数据集的数据分布

接下来我主要对该数据集的数据分布进行介绍，由于该数据集目前还没有正式放出，所以所有数据和图表均来自论文。

首先是数据集的类别分布：

对于339个动作类别，共有超过100000个标注视频
每个类别至少有1000个视频，每个类别视频数量的平均值是1757，中值是2775

类别与类别视频数量的关系图如下图所示。

接下来，作者介绍了数据集中动作主体的分布情况，如前所述动作主题可能是人，动物或一般物体。作者统计了不同类别视频中各类动作主题所占比例的分布，如下图所示。左侧的极端是“typing“，主体全部是人类，右边的极端是”overflowing”,动作主题基本不是人类。

最后，作者分析了数据集各个类别中依赖于声音的视频所在的比例。此处，依赖于声音的视频是指该视频无法从图像上判断出其包含的动作，而必须要听声音。从下图可以看出，有相当比例的视频是依赖于声音的，这点要增加了该数据集的挑战性。

场景、物体与动作之前的相关性探索

最后，作者通过一组简单的实验探索了各个数据集中物体-场景-动作之间的相关性。此处分析的视频数据集除了Moments in Time外，还包括UCF-101, ActivityNet 1.3 以及Kinetics数据集。

这里的实验设置还蛮有趣的。作者分别采用了一个在ImageNet上训练的Resnet50用于物体分类，一个在Places数据集上训练的Resnet50用作场景分类。对于每个视频，均匀抽取3帧并利用两个网络进行检测并平均结果，可以得到一个物体label以及一个场景label。对于物体或场景label，作者通过贝叶斯公式来推断对应的动作类别，其中先验概率在数据集的训练集上计算获得。

实验结果如下表所示，可以得到以下几点结论：

动作与场景以及物体均是相关的。
Moments in Time数据集中，动作与物体以及场景的相关性显著弱于其他几个数据集，这表明该数据集有更高的挑战性以及更大的难度。

个人讨论

Moments-in-Time数据集我觉得还是相当有趣以及有挑战性的，估计很快就会有不少人跟进来做这个数据集（显而易见需要比较大的计算资源…）。下面是我对于该数据集的一些讨论内容，包括优点以及一些个人存在疑惑的地方。

优点：

数据集的大小和丰富程度很高，足以训练较复杂的视频分类模型。
视频的长度统一为3s，这样的设计方便实验时进行处理，也使得数据集的尺寸不至于过大。
数据标注的策略应该还是比较靠谱的，应该不太会有错误标注。

以上是几点明显的优点，但对于作者强调的几个数据集优点，我则存在一些疑惑：

仅用动词定义动作：这个应该是这个数据集和其他数据集相比最大的一个差异点。作者认为通过该数据集能够学习一个泛化能力很强的动作概念，但在我看来这样的定义有些太过宽泛了。动词的含义常常依赖于其主语和谓语，单独的动词即便对于人类而言也常常是含义模糊的。此处可以参考今年ICCV上的[3]一文，我此前也写过一篇笔记：https://zhuanlan.zhihu.com/p/29227174 介绍这篇文章。这篇文章中一个重要的观点是，动作应该用动词-名词组合来定义，从而明确其含义。不过该数据集也是故意在此处模糊化从而增加类内差异，现在也不能够知道是否是一个好的设计了。
动作的主体不一定是人：这点也是数据集作者有意设计，从而增加难度以及多样性。我也持有同样的对于定义不清晰的疑惑，比如人开门（“opening”）和风吹开了一扇窗户（”opening“）放在同一个类别中总感觉不太合理。此外，此处还有一个问题，尽管温中给出了动作主体的分析，但通过询问作者，第一版的数据集不会提供动作主体的label，而仅包含一个动作label。
依赖声音的动作：这点我觉得倒是蛮好的，可以促进多模态方法的发展。但是同以上一点，该数据集在训练集中并没有告知这个视频中的动作是否是依赖与声音的。如果有相关的标签，我觉得会更有助于视频的理解吧。作者可能会在后续版本加上。

总体而言，这个新数据集还是很有趣且充满挑战的，与此前的多个主要关注人类动作的数据集在设定上有较大的差异。针对这个数据集，模型方面应该更注重于对动作概念的理解以及对较大的类内差异性的处理。期待之后针对该数据集的算法了。

本文投稿于AI科技评论公众号, 未经许可请勿转载。

参考文献

[1] Monfort M, Zhou B, Bargal S A, et al. Moments in Time Dataset: one million videos for
event understanding[J].

[2] Salamon J, Jacoby C, Bello J P. A dataset and taxonomy for urban sound research[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 1041-1044.

[3] Sigurdsson G A, Russakovsky O, Gupta A. What Actions are Needed for Understanding
Human Actions in Videos?[J]. arXiv preprint arXiv:1708.02696, 2017.

推荐阅读

io
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
io
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
io
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
io
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
io
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
io
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
default
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
io
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
io
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
io
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
io
使用Python编写自动化脚本实现文件的全量与增量备份

本文探讨了利用Python编程语言开发自动化脚本来实现文件的全量和增量备份方法。通过详细分析不同备份策略的特点，文章介绍了如何使用Python标准库中的os和shutil模块来高效地管理和执行备份任务。此外，还提供了示例代码和最佳实践，帮助读者快速掌握自动化备份技术，确保数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-05 09:50:57
io
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
io
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
io
特斯拉的盈利之谜：净利润未必源自汽车销售

近日，特斯拉因客户投诉再度成为舆论焦点。一位车主反映其购买仅6天的Model 3在使用官方超级充电桩时突然断电，引发了对特斯拉产品质量和售后服务的质疑。然而，特斯拉的盈利模式并不仅限于汽车销售，其净利润可能更多地来自其他业务板块，如能源服务、自动驾驶技术和软件订阅等。这些多元化收入来源为特斯拉的财务表现提供了更多支撑。 ... [详细]

蜡笔小新 2024-10-29 20:58:57
io
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07

MINT米田

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章