热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多模态学习(一)初识

一、博文推荐多模态学习综述及最新方向链接:-1.https:zhuanlan.zhihu.comp389287751(简略版)-2.https:zhuanlan.z



一、博文推荐

多模态学习综述及最新方向
链接:
- 1. https://zhuanlan.zhihu.com/p/389287751 (简略版)
- 2. https://zhuanlan.zhihu.com/p/353681958 (详细版)
- 3. https://bbs.huaweicloud.com/blogs/264134 (归纳总结版本-推荐!)
来源文章:TPAMI综述文献
Multimodal machine learning: A survey and taxonomy.

二、综述论文推荐

国内:

  1. 何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(05):1-11.DOI:10.19678/j.issn.1000-3428.0057370.
  2. 孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10.
  3. 陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(05):557-569.DOI:10.13374/j.issn2095-9389.2019.03.21.003.
  4. 牟智佳,符雅茹.多模态学习分析研究综述[J].现代教育技术,2021,31(06):23-31.

三、什么是多模态机器学习?

学习来源: https://blog.csdn.net/electech6/article/details/85142769

每一种信息的来源或者形式,都可以称为一种模态。例如:

  • 人有触觉,听觉,视觉,嗅觉;
  • 信息的媒介,有语音、视频、文字等;
  • 多种多样的传感器,如雷达、红外、加速度计等。

以上的每一种都可以称为一种模态。


多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

该博文参考了https://www.cs.cmu.edu/~morency/MMML-Tutorial-ACL2017.pdf,主要从以下五个方向进行了介绍。

在这里插入图片描述

1. 多模态表示学习


  • 联合表示 : 联合表示将多个模态的信息一起映射到一个统一的多模态向量空间;
  • 协同表示 : 协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。
  • 利用多模态表示学习到的特征可以用来做信息检索,也可以用于的分类/回归任务。
  • 两个例子
    表示学习 : 学习图片和文本的联合概率分布 P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片
    在这里插入图片描述
    协同学习:狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片在这里插入图片描述

2. 转化 Translation / 映射 Mapping

转化也称为映射,负责将一个模态的信息转换为另一个模态的信息。常见的应用包括

  • 机器翻译
  • 图片描述 或者 视频描述(Video captioning)
  • 语音合成(Speech Synthesis)

模态间的转换主要有两个难点:

  • 一个是open-ended,即未知结束位
    例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译

  • 另一个是subjective,即主观评判性
    是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。

3. 对齐 Alignment

多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。

  1. 时间维度
    在这里插入图片描述

  2. 空间维度
    在这里插入图片描述


4. 多模态融合 Multimodal Fusion

还存在其他常见的别名,
多源信息融合(Multi-source Information Fusion)
多传感器融合(Multi-sensor Fusion)。

按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类

难点:

  • 主要包括如何判断每个模态的置信水平、
  • 如何判断模态间的相关性、
  • 如何对多模态的特征信息进行降维
  • 如何对非同步采集的多模态数据进行配准等。

下面列举几个比较热门的研究方向

1. 视觉-音频识别
在这里插入图片描述
2. 多模态情感分析
在这里插入图片描述

3.手机身份认证
综合利用手机的多传感器信息,认证手机使用者是否是注册用户。

5. 协同学习 Co-learning

协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。

  • 迁移学习
    迁移学习比较常探讨的方面目前集中在领域适应性问题上
    还有zero-shot learning 与 one-shot learning.
  • 协同训练
    负责研究如何在多模态数据中将少量的标注进行扩充,得到更多的标注信息。






推荐阅读
  • 在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时,遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ... [详细]
  • 如何将955万数据表的17秒SQL查询优化至300毫秒
    本文详细介绍了通过优化SQL查询策略,成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧,还深入探讨了背后的数据库原理。 ... [详细]
  • 本文总结了一次针对大厂Java研发岗位的面试经历,探讨了面试中常见的问题及其背后的原因,并分享了一些实用的面试准备资料。 ... [详细]
  • GLiHT数据介绍
    GLiHT数据介绍 ... [详细]
  • 使用 Jupyter Notebook 实现 Markdown 编写与代码运行
    Jupyter Notebook 是一个开源的基于网页的应用程序,允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码,并实时查看运行结果。 ... [详细]
  • 分享两个GitHub链接,今天看到的,超赞超赞不能更赞了,答应我一定要去看好吗~~~~不论是笔记还是github中分享的其它资源ÿ ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文介绍了如何通过安装Build Token Root插件并配置身份验证令牌来解决Jenkins远程触发器无法正常工作的问题。 ... [详细]
  • 解决问题:1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考:https:github.comsuyunzzzCSF论文题目ÿ ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • 在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决
    在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤,并针对常见的问题提供了有效的解决方案。通过本文的指导,读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]
  • 在处理大规模数据数组时,优化分页组件对于提高页面加载速度和用户体验至关重要。本文探讨了如何通过高效的分页策略,减少数据渲染的负担,提升应用性能。具体方法包括懒加载、虚拟滚动和数据预取等技术,这些技术能够显著降低内存占用和提升响应速度。通过实际案例分析,展示了这些优化措施的有效性和可行性。 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
author-avatar
q40796672
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有