上海交通大学电院计算机科学系,上海交通大学计算机科学与工程系(CSE)

作者：哦呦喂酿 | 来源：互联网 | 2023-09-08 19:42

引言：近期，上海交通大学电子信息与电气工程学院计算机系卢策吾团队在《自然》机器智能杂志子刊上发表了关于高维度视觉序列理解上的研究成果《Complexse

引言&＃xff1a;近期&＃xff0c;上海交通大学电子信息与电气工程学院计算机系卢策吾团队在《自然》机器智能杂志子刊上发表了关于高维度视觉序列理解上的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。《自然》机器智能子刊主要发表人工智能基础研究成果。上海交通大学是该论文的唯一单位&＃xff0c;也是我校第一篇入选该期刊的论文。与此同时&＃xff0c;该团队将该论文代码与近两年在视频理解领域的先进成果开源为基于PyTorch框架的视频理解工具箱AlphaVideo。其在MOT跟踪数据和AVA行为理解上都达到了最高的准确率。其中&＃xff0c;AlphAction在AVA上相比SlowFast[4]有12.6%的相对提高&＃xff0c;15类常见行为模型达到约70 mAP。

图1 动作理解任务的时空信息特征图。左&＃xff1a;输入序列&＃xff1b;右&＃xff1a;空间特征更关注物体形状&＃xff0c;时间特征更关注物体运动趋势。

图2 AlphaVideo中的行为理解(Alphaction)

人类视觉理解机理&＃xff1a;在现实世界中&＃xff0c;人类的视觉感知存在两个概念&＃xff0c;一个是理解物体长相(appearance)的空间概念&＃xff0c;另一个是物体场景变化的时空变换概念。在我们的视觉认知过程中这两个概念相互耦合&＃xff0c;完成对世界的整体视觉理解。神经科学领域的研究发现也在人类的记忆形成过程中&＃xff0c;时间信息与空间上下文信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆[1]。

新技能&＃xff1a;自主学习时空概念

我们是否能模仿人类的认知机制从中自动发掘(awareness)时间-空间概念&＃xff0c;并将其分别表征&＃xff0c;同时又让他们耦合协作提高机器视觉时序理解的准确率。这种能力代表着机器学习模型自主掌握了时空的概念&＃xff0c;向着更高的智能迈出了一步。更进一步&＃xff0c;时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。

本文提出了应用于高维度信息的半耦合结构模型(SCS)&＃xff0c;使得机器学习模型点亮新的技能树&＃xff1a;自主学习并分离出时间和空间信息概念。SCS推动了序列模型在高维视频数据上的应用&＃xff0c;时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。

半耦合结构模型

半耦合结构的中心思想是先解耦时空信息(模仿人脑中的两条信息通路)&＃xff0c;分别处理时间和空间信息之后再将二者耦合(模仿海马体)。该过程可以形式化地表示为&＃xff1a;

深度学习的理论要求我们堆叠这种半耦合的元结构以形成更深的模型&＃xff1a;

在整个深度模型中&＃xff0c;时空信息始终以先解耦在融合的模式向后流动。这种模式使得模型在所有层中都可以接触到完整的信息。

为了让hs和ht可以各司其职&＃xff0c;研究者们将他们设计为不对称的结构&＃xff0c;hs使用更关注空间信息的结构&＃xff0c;如卷积网络&＃xff1b;ht则采用更关注空间信息的结构&＃xff0c;如递归神经网络。同时&＃xff0c;研究者们使用两个特殊的监督目标rs&＃xff0c;rt来进一步约束二者关注自己的工作。两个目标满足&＃xff1a;

通过将rs&＃xff0c;rt分别设置为空间和时间的监督信号&＃xff0c;如关键点检测损失作为rs&＃xff0c;光流估计损失作为rt&＃xff0c;可以做到分别监督hs和ht关注自己各自的信息。

研究者们同时提出了一种训练的注意力机制。这种注意力机制控制着模型在优化过程中先学习哪种信息。在视频信息中&＃xff0c;研究者们认为时间信息必须基于较为稳定的空间信息。因此模型应该优先将注意力集中在空间信息上&＃xff0c;待空间信息有效且稳定时&＃xff0c;逐步将模型训练的注意力转换到时间信息上。这种注意力机制是通过按照一定概率截断或者的梯度来实现的。

通过控制q的值&＃xff0c;完成在时间和空间信息之间的转换。

SCS的表现如何&＃xff1f;

任务性能对比与传统LSTM比较

SCS在视频动作分类&＃xff0c;自动驾驶&＃xff0c;天气预报等4个任务上的性能都超越了传统的序列模型。

概念编辑

有了时空分离的能力&＃xff0c;SCS将可以初步做到“概念编辑”。试想这样一个场景&＃xff0c;我们训练一个模型可以准确地预测狗的运动轨迹&＃xff0c;如果我们突然需要预测猫的轨迹(假设现实中猫的运动趋势与狗相同&＃xff0c;仅外观不同)&＃xff0c;为了获得良好的性能&＃xff0c;我们需要重新训练模型。但是有了“概念编辑”&＃xff0c;我们可以把物体的空间信息从狗编辑为猫&＃xff0c;而保留模型学到的时间信息不变&＃xff0c;这样将以比较小的代价实现模型的泛化&＃xff0c;同时也扩宽模型的使用场景与部署难度。如图3。

图3 概念编辑demo

我们让计算机看Flappy Bird的视频&＃xff0c;然后看一张静态的Mario图片(外观形象)。在这个过程中&＃xff0c;模型并没有接触到任何mario在管道中穿梭的运动信息。通过“概念编辑”&＃xff0c;测试时SCS也可以准确地预测mario的运动轨迹。

视频理解工具箱AlphaVideo

为了整合MVIG团队在视频理解领域近两年的成果&＃xff0c;同时作为一个平台进一步容纳今后的研究结果&＃xff0c;我们开源了视频理解工具箱AlphaVideo。目前在该工具箱中&＃xff0c;除了上述SCS时空概念分解&＃xff0c;我们也提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction。目前&＃xff0c;研究团队已将代码及训练好的模型全部开源&＃xff0c; 工具箱已发布为 pip 包&＃xff0c;只需 python 中加一行代码&＃xff0c;即可调用预训好的各类模型。

AlphAction

AlphAction是面向行为理解的开源系统&＃xff0c;目前基于MVIG提出的交互理解与异步训练策略[5]&＃xff0c;比起SlowFast相对提高12.6% &＃xff0c;速度达到10FPS(下一版本将达到实时)。并且开源了15常见行为基本模型mAP达到约70%&＃xff0c;接近可以商用的水平。

TubeTK

TubeTK是第一个单阶段可以端对端训练的多目标跟踪模型, 也是第一个开源的在MOT-16数据集上达到了66.9MOTA精度的模型&＃xff0c;这是目前online模型仅在MOT训练数据下达到的最高精度[3]。

图4 TubeTK 可视化结果

TubeTK模型&＃xff0c;是基于上海交大MVIG组提出的基于Bounding-Tube开发的单阶段训练模型(CVPR2020-oral)&＃xff0c;该方法无需额外的目标检测器&＃xff0c;仅依靠一个全卷积网络完成多目标跟踪任务&＃xff0c;其精度比DeepSort相对提高9%。通过Bounding-tube&＃xff0c;TubeTK面对遮挡和密集人群有着更高的鲁棒性。

图5 Bounding-Tube示意图。使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标(图中黄色框)

参考文献

[1] Kitamura, T. etal. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).

[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).

[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).

[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv:2004.07485.

作者简介&＃xff1a;

庞博上海交通大学电院计算机系在读博士生&＃xff0c;上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习&＃xff0c;尤其是视频理解算法包括动作理解&＃xff0c;多目标跟踪&＃xff0c;视频关键点估计等。

汤佳俊上海交通大学电院计算机系在读硕士生&＃xff0c;上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习&＃xff0c;尤其是视频动作理解算法。

卢策吾上海交通大学电院计算机系长聘教轨副教授。在他加入交大之前&＃xff0c;他是斯坦福大学人工智能实验室研究员。他的研究兴趣主要集中在机器人、人工智能和机器人计算机视觉。他担任CVPR 2020的领域和《自然》杂志的评论员。他还入选了MITTR35-MIT技术评论提名的35个35岁以下的创新者(中国)。Homepage: http://mvig.sjtu.edu.cn/

推荐阅读

图片
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
图片
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
图片
CBAM:卷积块注意模块

CBAM:ConvolutionalBlockAttentionModule论文地址：https:arxiv.orgabs1807.06521简介：我们提出了 ... [详细]

蜡笔小新 2024-10-10 20:39:05
数组
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
数组
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
数组
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
数组
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
数组
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
rsa
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
rsa
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
rsa
不用蘑菇，不拾金币，我通过强化学习成功通关29关马里奥，创造全新纪录

《超级马里奥兄弟》由任天堂于1985年首次发布，是一款经典的横版过关游戏，至今已在多个平台上售出超过5亿套。该游戏不仅勾起了许多玩家的童年回忆，也成为强化学习领域的热门研究对象。近日，通过先进的强化学习技术，研究人员成功让AI通关了29关，创造了新的纪录。这一成就不仅展示了强化学习在游戏领域的潜力，也为未来的人工智能应用提供了宝贵的经验。 ... [详细]

蜡笔小新 2024-10-28 10:11:47
rsa
CVPR 2018 | 旷视科技Face++推出语义分割创新模型——判别特征网络（DFN）

全球计算机视觉顶会CVPR2018（ConferenceonComputerVisionandPatternRecognition，即IEEE国际计算机 ... [详细]

蜡笔小新 2024-10-23 18:11:27
rsa
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
rsa
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
rsa
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50

哦呦喂酿

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章