热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

上海交通大学电院计算机科学系,上海交通大学计算机科学与工程系(CSE)

引言:近期,上海交通大学电子信息与电气工程学院计算机系卢策吾团队在《自然》机器智能杂志子刊上发表了关于高维度视觉序列理解上的研究成果《Complexse

引言:近期,上海交通大学电子信息与电气工程学院计算机系卢策吾团队在《自然》机器智能杂志子刊上发表了关于高维度视觉序列理解上的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。《自然》机器智能子刊主要发表人工智能基础研究成果。上海交通大学是该论文的唯一单位,也是我校第一篇入选该期刊的论文。与此同时,该团队将该论文代码与近两年在视频理解领域的先进成果开源为基于PyTorch框架的视频理解工具箱AlphaVideo。其在MOT跟踪数据和AVA行为理解上都达到了最高的准确率。其中,AlphAction在AVA上相比SlowFast[4]有12.6%的相对提高,15类常见行为模型达到约70 mAP。

6e346c3a1e5302cbfa2f9259292298b1.png

图1 动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

57a8f854d9f5c151a34a641a01f01792.gif

图2 AlphaVideo中的行为理解(Alphaction)

人类视觉理解机理:在现实世界中,人类的视觉感知存在两个概念,一个是理解物体长相(appearance)的空间概念,另一个是物体场景变化的时空变换概念。在我们的视觉认知过程中这两个概念相互耦合,完成对世界的整体视觉理解。神经科学领域的研究发现也在人类的记忆形成过程中,时间信息与空间上下文信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆[1]。

新技能:自主学习时空概念

我们是否能模仿人类的认知机制从中自动发掘(awareness)时间-空间概念,并将其分别表征,同时又让他们耦合协作提高机器视觉时序理解的准确率。这种能力代表着机器学习模型自主掌握了时空的概念,向着更高的智能迈出了一步。更进一步,时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。

本文提出了应用于高维度信息的半耦合结构模型(SCS),使得机器学习模型点亮新的技能树:自主学习并分离出时间和空间信息概念。SCS推动了序列模型在高维视频数据上的应用,时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。

半耦合结构模型

半耦合结构的中心思想是先解耦时空信息(模仿人脑中的两条信息通路),分别处理时间和空间信息之后再将二者耦合(模仿海马体)。该过程可以形式化地表示为:

6a72b759762f4de535ae356690551399.png

深度学习的理论要求我们堆叠这种半耦合的元结构以形成更深的模型:

a3451e7d5bc63ab21a6ad2ce4e41c76d.png

在整个深度模型中,时空信息始终以先解耦在融合的模式向后流动。这种模式使得模型在所有层中都可以接触到完整的信息。

为了让hs和ht可以各司其职,研究者们将他们设计为不对称的结构,hs使用更关注空间信息的结构,如卷积网络;ht则采用更关注空间信息的结构,如递归神经网络。同时,研究者们使用两个特殊的监督目标rs,rt来进一步约束二者关注自己的工作。两个目标满足:

db1fb059450b4e1122085e7b937c6001.png

通过将rs,rt分别设置为空间和时间的监督信号,如关键点检测损失作为rs,光流估计损失作为rt,可以做到分别监督hs和ht关注自己各自的信息。

研究者们同时提出了一种训练的注意力机制。这种注意力机制控制着模型在优化过程中先学习哪种信息。在视频信息中,研究者们认为时间信息必须基于较为稳定的空间信息。因此模型应该优先将注意力集中在空间信息上,待空间信息有效且稳定时,逐步将模型训练的注意力转换到时间信息上。这种注意力机制是通过按照一定概率截断或者的梯度来实现的。

2e297ee8be12d7605050423cb82e7135.png

通过控制q的值,完成在时间和空间信息之间的转换。

SCS的表现如何?

任务性能对比与传统LSTM比较

93f4c3dcf31a3ee5ec098c56aeeaac39.png

SCS在视频动作分类,自动驾驶,天气预报等4个任务上的性能都超越了传统的序列模型。

概念编辑

有了时空分离的能力,SCS将可以初步做到“概念编辑”。试想这样一个场景,我们训练一个模型可以准确地预测狗的运动轨迹,如果我们突然需要预测猫的轨迹(假设现实中猫的运动趋势与狗相同,仅外观不同),为了获得良好的性能,我们需要重新训练模型。但是有了“概念编辑”,我们可以把物体的空间信息从狗编辑为猫,而保留模型学到的时间信息不变,这样将以比较小的代价实现模型的泛化,同时也扩宽模型的使用场景与部署难度。如图3。

268b93898f6dba5597178dbad0f7acfb.gif

图3 概念编辑demo

我们让计算机看Flappy Bird的视频,然后看一张静态的Mario图片(外观形象)。在这个过程中,模型并没有接触到任何mario在管道中穿梭的运动信息。通过“概念编辑”,测试时SCS也可以准确地预测mario的运动轨迹。

视频理解工具箱AlphaVideo

为了整合MVIG团队在视频理解领域近两年的成果,同时作为一个平台进一步容纳今后的研究结果,我们开源了视频理解工具箱AlphaVideo。目前在该工具箱中,除了上述SCS时空概念分解,我们也提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction。目前,研究团队已将代码及训练好的模型全部开源, 工具箱已发布为 pip 包,只需 python 中加一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction是面向行为理解的开源系统,目前基于MVIG提出的交互理解与异步训练策略[5],比起SlowFast相对提高12.6% ,速度达到10FPS(下一版本将达到实时)。并且开源了15常见行为基本模型mAP达到约70%,接近可以商用的水平。

e723eee24bbbb8486a55f742802eba37.png

TubeTK

TubeTK是第一个单阶段可以端对端训练的多目标跟踪模型, 也是第一个开源的在MOT-16数据集上达到了66.9MOTA精度的模型,这是目前online模型仅在MOT训练数据下达到的最高精度[3]。

5f8f757a204149562cddd5afaf05aa24.gif

图4 TubeTK 可视化结果

TubeTK模型,是基于上海交大MVIG组提出的基于Bounding-Tube开发的单阶段训练模型(CVPR2020-oral),该方法无需额外的目标检测器,仅依靠一个全卷积网络完成多目标跟踪任务,其精度比DeepSort相对提高9%。通过Bounding-tube,TubeTK面对遮挡和密集人群有着更高的鲁棒性。

d6f41b662846f1ec3875bcb2c0c0ec55.png

图5 Bounding-Tube示意图。使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标(图中黄色框)

参考文献

[1] Kitamura, T. etal. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).

[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).

[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).

[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv:2004.07485.

作者简介:

e3bbd678461963f747df0e96bb17baa5.png

庞博上海交通大学电院计算机系在读博士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频理解算法包括动作理解,多目标跟踪,视频关键点估计等。

d6b583b6f6f4ae888b7223c6ad3d934f.png

汤佳俊上海交通大学电院计算机系在读硕士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频动作理解算法。

7d2afd00877e1224901f3f3d958bcf5a.png

卢策吾上海交通大学电院计算机系长聘教轨副教授。在他加入交大之前,他是斯坦福大学人工智能实验室研究员。他的研究兴趣主要集中在机器人、人工智能和机器人计算机视觉。他担任CVPR 2020的领域和《自然》杂志的评论员。他还入选了MITTR35-MIT技术评论提名的35个35岁以下的创新者(中国)。Homepage: http://mvig.sjtu.edu.cn/



推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • plt python 画直线_机器学习干货,一步一步通过Python实现梯度下降的学习
    GradientDescent-梯度下降梯度下降法(英语:Gradientdescent)是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找 ... [详细]
author-avatar
哦呦喂酿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有