bootstrap模态框之间的数据交互_AI研习丨何晓冬：语言与视觉的跨模态智能

作者：在这里啊 | 来源：互联网 | 2023-08-20 11:43

转自CAAI会员中心0引言本文谈谈我在语言与视觉的跨模态智能研究与产业应用方面的一些思考。在人工智能领域中，模态是指智能体接收和输出信息的特定方式。当前人工智能领域研

转自 CAAI会员中心

0 引言

本文谈谈我在语言与视觉的跨模态智能研究与产业应用方面的一些思考。

在人工智能领域中&＃xff0c;模态是指智能体接收和输出信息的特定方式。当前人工智能领域研究的主要模态包括语音、文本、图像、视频等。近30来&＃xff0c;计算机及相关技术的高速发展产生了大量的不同模态的信息(语音、文本、图像、视频&＃xff0c;以及多样的结构化数据等)&＃xff0c;并进而催生出针对不同模态的专业领域研究&＃xff0c;例如人类语言技术(Human Language Technology&＃xff0c;HLT)、计算机视觉(Computer Vision&＃xff0c;CV)等。

123

何晓冬

语言与视觉的跨模态智能

近年来&＃xff0c;基于深度学习技术&＃xff0c;语言和视觉等单一模态研究领域取得了突破性的进展&＃xff0c;比如在人脸识别、物体识别与检测、图像生成、语音识别与合成、语义理解、机器翻译、机器应答及对话系统等单模态方向&＃xff0c;智能体的表现已经在很多特定的数据集上达到与人相当的水平。这些研究成果也已在现实生活中落地成为重要的应用。但另一方面&＃xff0c;随着单一模态的基础问题逐步得到解决&＃xff0c;研究人员也意识到更高层次的人工智能任务往往涉及到更复杂的跨多个模态的信息处理问题&＃xff0c;需要对跨模态信息处理进行研究。同时&＃xff0c;单一模态专业领域的研究往往局限于某种特定模态的信息&＃xff0c;未能充分利用跨模态信息的优势&＃xff0c;而人类对复杂的智能任务的处理往往是基于不同神经中枢联动地处理各种模态信息进行的&＃xff0c;不只是单单地利用某一种中枢进行任务处理。鉴于此&＃xff0c;跨模态研究受到越来越多的关注&＃xff0c;并逐步成为人工智能领域下一阶段的重要研究课题。

鉴于跨模态研究方向的重要性&＃xff0c;本文将从表征学习、跨模态信息融合和典型应用三个角度简要介绍近年来跨模态领域&＃xff0c;特别是语言与视觉跨模态领域的主要研究方向及相关研究进展&＃xff0c;并探讨跨态方向未来的研究趋势。

1 研究发展状况

语言与视觉跨模态领域的研究可从以下3个角度来进行归纳。

1.1 跨模态表征学习

跨模态表征学习研究将多个模态数据所蕴含的语义信息投影到连续向量表征空间以进行信息融合和推理(见图1)。与单模态表征学习(如文本表征模型Deep Structured Semantic Models (DSSM)、Bidirectional Encoder Representations for Transformers(BERT)等)往往只关注单一模态数据自身的特点不同&＃xff0c;跨模态表征学习需要同时从多个异质信息源(例如视觉、文字、语音等)中通过联合学习提取被研究对象的特征&＃xff0c;并需要将不同模态的语义信息投影到一个统一的表征空间。之前常用模型包括Deep Multimodal Similarity Models (DMSM)等模型&＃xff0c;而近期在单一文本模态BERT的启发下提出的一系列图像/视频与文本融合的模型&＃xff0c;比如VL-BERT等代表了这个方向的最新研究展。跨模态表征学习还包括通过建立跨模态的统一的语义空间将信息富集的模态上学习的知识迁移到信息匮乏的模态&＃xff0c;比如跨模态的小样本学习、领域自适应等。该研究方向旨在对于缺乏标注数据、样本存在大量噪声&＃xff0c;以及数据收集质量不可靠的情况下&＃xff0c;尝试将其他模态上学习到的知识迁移到目标模态&＃xff0c;以提高其性能。

图 1 跨模态语义空间与表征学习

1.2 跨模态信息融合

跨模态信息融合研究如何融合不同模态的信息&＃xff0c;以完成复杂的跨模态任务。信息融合的研究包括整合不同模态间的模型与特征&＃xff0c;从而得到整合的表征输出。跨模态融合能获取更丰富的信息&＃xff0c;提高模型的鲁棒性与准确性。常见的融合模型包括跨模态紧致双线性池化(Multimodal Compact Bilinear Pooling&＃xff0c;MCB)等方法。这为下游的具体应用&＃xff0c;如视觉问答(Visual Question Answering&＃xff0c;VQA)&＃xff0c;提供了跨模态整合后的信息输入。跨模态信息融合的研究也包括研究不同模态之间的元素(比如视觉模态中的物体、姿态&＃xff0c;以及语言模态中的实体、概念等)的对应关系。一方面&＃xff0c;跨模态元素的对齐是一种更细粒度的映射关系&＃xff0c;可以有效帮助提升跨模态映射任务&＃xff1b;另一方面&＃xff0c;跨模态数据对齐也可以帮助学习更优的跨模态表征。例如从图像中识别出实体&＃xff0c;并与文本里的实体甚至知识图谱等结构化数据构建链接关系&＃xff0c;以帮助构建跨模态知识&＃xff0c;以及更好地提升跨模态信息理解。常见的跨模态对齐(Grounding)算法往往基于注意力模型(Attention)&＃xff0c;包括堆栈注意力网络(Stacked Attention Networks&＃xff0c;SAN)&＃xff0c;自底向上和自顶向下的双向注意力模型(Bottom-Up and Top-Down(BUTD)Attention)等。

1.3 跨模态智能应用

典型的语言和视觉跨模态任务&＃xff0c;包括图像/视频转文字(Image/Video Captioning)、文字转图像 (Text-to-Image Synthesis)、视觉问答(VQA)、跨模态检索(Cross Modal/Media Retrieval)、视觉&＃43;语言导航(Vision-and-Language Navigation)、跨模态人机对话与交互(Multimodal Dialogue and HumanComputer Interaction)等。这些任务一方面驱动了跨模态智能各方面的基础研究&＃xff0c;另一方面也在实际场景中得到了广泛的应用。随着跨模态研究的深入&＃xff0c;更多的应用还将被提出。

2 前景和机遇

在上面提到的研究方向之外&＃xff0c;以下3个研究与应用方向在未来也有很大的发展空间。

2.1 跨模态常识知识学习

近年来学术界提出多个跨模态知识库和数据集&＃xff0c;如MS-Celeb-1M包含了1000万张图片&＃xff0c; 支持对全世界100万知名人物的识别及与知识库中的人物实体信息进行链接。进一步&＃xff0c;我们也可从海量图像与视频内容中自动构建结构化的常识知识(Common-sense Knowledge)以帮助语义理解。图像与视频数据往往包含了广泛的日常事实。以其作为输入&＃xff0c;借助目标检测、实体链接&＃xff0c;自底向上和自顶向下的注意力机制(BUTD Attention)和自注意力机制(如视觉Hierarchical Attention Networks(HAN)) 等技术挖掘出海量视觉信息中的海量事实&＃xff0c;比如实体、动作、属性、概念、及它们之间的关联等&＃xff0c;从而构建广泛的、结构化的常识模型。构建出的常识模型可以帮助需要常识推理的应用&＃xff0c;例如自然语言理解、机器阅读、视觉问答(VQA)等。该方向的研究重点包括&＃xff1a;① 如何定义常识&＃xff0c;并构造视觉与常识跨模态数据集&＃xff1b;② 提出新的跨模态常识学习算法&＃xff1b;③ 构造新的认知任务以体现常识的关键作用&＃xff0c;以验证算法的进展&＃xff1b;④常识更新机制等&＃xff0c;均是亟待解决的问题。

2.2 跨模态情感智能

高级的情感智能是人类特有的一种认知能力。人类的交流天然是情感丰富的&＃xff0c;并且往往跨越多个模态(语言、视觉、结构化知识等)。为建造高度拟人化的人机交互智能体&＃xff0c;机器需要能理解以及生成跨模态的情感内容&＃xff0c;能与人进行有同理心的跨模态情感交流。这个方面的基础研究不但可帮助我们理解认知智能机理&＃xff0c;也有很大的实际应用价值。比如目前直播&＃xff0c;以及短视频等文娱媒介极大地满足了众多用户的情感寄托需求&＃xff0c;由此积累了大量用户&＃xff0c;产生巨大商业价值。在这个方向业界已经有了一些尝试&＃xff0c;比如微软的小冰机器人就将情感安抚作为一个主要的能力。跨模态情感智能的难点在于如何感知和对齐在不同模态下情感的微妙的表达&＃xff0c;并保证不同模态之间数据的一致性与合理性。该任务属于跨模态研究的跨模态融合问题&＃xff0c;目前该问题尚未有成熟的相关研究。

2.3 大规模复杂任务导向跨模态智能人机交互系统

服务产业智能化对人工智能技术而言是个巨大的机遇&＃xff0c;也是个巨大的挑战。以电商为例&＃xff0c;在业务不断拓展的背景下&＃xff0c;电商产业面临的是超大规模的数据应用和零售全链条复杂人机交互的场景&＃xff0c;需要对10亿级别的用户提供个性化的高效率的零售服务体验&＃xff0c;所以急需大规模复杂任务导向跨模态智能人机交互技术的支撑。为此&＃xff0c;在推动开源开放跨模态人机交互系统框架&＃xff0c;构建大规模数据集和算法验证平台&＃xff0c;开展跨媒体信息智能技术的基础研究等几个方面均充满机遇。而在这些方面的基础研究和技术突破也将为更广泛的服务产业的智能化提供支撑。

3 总结

语言与视觉跨模态智能的研究关注于将偏感知的视觉智能与偏认知的语言智能相结合&＃xff0c;使得智能体能获取更全面的能力。目前跨模态的研究尚处于初级阶段&＃xff0c;是新兴的研究方向&＃xff0c;但却是人工智能发展历程上的重要节点。如何建造具有多重模态感知能力的智能体&＃xff0c;并利用不同模态数据之间的联系来提升智能体对世界的认知能力是一个重要的课题。本文对跨模态研究的背景和研究方向做了简单的梳理&＃xff0c;希望能进一步激发人工智能学者对语言与视觉跨模态研究的兴趣&＃xff0c;推动这一研究领域的进展。

(参考文献略)

选自《中国人工智能学会通讯》

2020年第10卷第1期特约专栏

何晓冬

博士、京东集团技术副总裁、人工智能研究院常务副院长、IEEE/CAAI Fellow。华盛顿大学(西雅图)等院校兼职教授。曾任多个国际一流学术期刊编委&＃xff0c;发表了100多篇论文&＃xff0c;谷歌学术论文引用超过1.5万次。

联系我们

地址&＃xff1a;北京市海淀区西土城路10号

邮编&＃xff1a;100876

电话&＃xff1a;

010-62281360(秘书处)

010-62282983(综合办)

010-62283663(会员服务、学会通讯)

传真&＃xff1a;010-62281360

邮箱

综合管理部&＃xff1a;zhb&＃64;caai.cn

秘书处&＃xff1a;msc&＃64;caai.cn

信息化与媒体宣传部&＃xff1a;yuhui&＃64;caai.cn

出版部与编辑部&＃xff1a;sunwl&＃64;bupt.edu.cn

会员服务&＃xff1a;m&＃64;caai.cn

更多精彩

CAAI官方网站(http://caai.cn/)

CAAI官网微信公众号(CAAI-1981)

CAAI会员中心(CAAI-MemberCenter)

CAAI英文公众号(CAAI OFFICIAL)

点击左下角“阅读原文”&＃xff0c;加入CAAI

推荐阅读

ide
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
数组
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
timezone
JavaScript核心知识点与实用技巧汇总

本文总结了JavaScript的核心知识点和实用技巧，涵盖了变量声明、DOM操作、事件处理等重要方面。例如，通过`event.srcElement`获取触发事件的元素，并使用`alert`显示其HTML结构；利用`innerText`和`innerHTML`属性分别设置和获取文本内容及HTML内容。此外，还介绍了如何在表单中动态生成和操作``元素，以便更好地处理用户输入。这些技巧对于提升前端开发效率和代码质量具有重要意义。 ... [详细]

蜡笔小新 2024-11-06 20:14:58
timezone
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
main
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
数组
Unity3D中获取游戏对象的多种实用技巧与方法

在Unity3D中，获取游戏对象有多种实用技巧和方法。除了常见的序列化变量拖拽方式外，还可以使用 `GameObject.Find()` 方法通过对象名称或路径来直接获取游戏对象。此外，`Transform.Find()` 和 `GameObject.FindWithTag()` 也是常用的手段，分别适用于通过层级结构和标签来查找游戏对象。这些方法各有优劣，开发者可以根据具体需求选择最合适的方式。 ... [详细]

蜡笔小新 2024-11-01 15:34:00
python
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
search
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
uri
利用GLSL在iOS上实现YV12到RGB的转换，并附带展示结果图像

本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式，并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例，读者可以轻松掌握这一过程，适用于需要进行视频处理的应用开发。 ... [详细]

蜡笔小新 2024-11-06 19:18:22
request
深入解析HTTP头部中的Expires与Cache-Control字段及其缓存机制

本文深入探讨了HTTP头部中的Expires与Cache-Control字段及其缓存机制。Cache-Control字段主要用于控制HTTP缓存行为，其在HTTP/1.1中得到了广泛应用，而HTTP/1.0中主要使用Pragma:no-cache来实现类似功能。Expires字段则定义了资源的过期时间，帮助浏览器决定是否从缓存中读取资源。文章详细解析了这两个字段的具体用法、相互关系以及在不同场景下的应用效果，为开发者提供了全面的缓存管理指南。 ... [详细]

蜡笔小新 2024-11-06 18:48:33
callback
深入解析Spring AOP框架中的代理对象生成机制

在前文探讨了Spring如何为特定的bean选择合适的通知器后，本文将进一步深入分析Spring AOP框架中代理对象的生成机制。具体而言，我们将详细解析如何通过代理技术将通知器（Advisor）中包含的通知（Advice）应用到目标bean上，以实现切面编程的核心功能。 ... [详细]

蜡笔小新 2024-11-06 10:11:10
python
Python 微信机器人实现自动聊天、表情包回应及 Adidas 官方账号自动抽签功能——智能回复系统优化

本章节在上一章的基础上，深入探讨了如何通过引入机器人实现自动聊天、表情包回应以及Adidas官方账号的自动抽签功能。具体介绍了使用wxpy库进行微信机器人的开发，优化了智能回复系统的性能和用户体验。通过详细的代码示例和实践操作，展示了如何实现这些高级功能，进一步提升了机器人的智能化水平。 ... [详细]

蜡笔小新 2024-11-05 11:06:27
web
在CentOS 7上部署WebRTC网关Janus

在CentOS 7上部署WebRTC网关Janus ... [详细]

蜡笔小新 2024-11-04 11:09:50
install
BERT模型的应用与实践

本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库（曾用名pytorch-transformers和pytorch-pretrained-bert）的使用方法，涵盖了从模型加载到微调的各个环节。此外，还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现，并讨论了其在实际项目中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-03 13:20:53
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12

在这里啊

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章