多模态学习(一)初识

作者：q40796672 | 来源：互联网 | 2023-10-12 13:50

一、博文推荐多模态学习综述及最新方向链接：-1.https:zhuanlan.zhihu.comp389287751(简略版)-2.https:zhuanlan.z

一、博文推荐

多模态学习综述及最新方向
链接&＃xff1a;
- 1. https://zhuanlan.zhihu.com/p/389287751 (简略版)
- 2. https://zhuanlan.zhihu.com/p/353681958 (详细版&＃xff09;
- 3. https://bbs.huaweicloud.com/blogs/264134 &＃xff08;归纳总结版本-推荐&＃xff01;&＃xff09;
来源文章&＃xff1a;TPAMI综述文献
Multimodal machine learning: A survey and taxonomy.

二、综述论文推荐

国内&＃xff1a;

何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(05):1-11.DOI:10.19678/j.issn.1000-3428.0057370.
孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10.
陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(05):557-569.DOI:10.13374/j.issn2095-9389.2019.03.21.003.
牟智佳,符雅茹.多模态学习分析研究综述[J].现代教育技术,2021,31(06):23-31.

三、什么是多模态机器学习&＃xff1f;

学习来源: https://blog.csdn.net/electech6/article/details/85142769

每一种信息的来源或者形式&＃xff0c;都可以称为一种模态。例如:

人有触觉&＃xff0c;听觉&＃xff0c;视觉&＃xff0c;嗅觉&＃xff1b;
信息的媒介&＃xff0c;有语音、视频、文字等&＃xff1b;
多种多样的传感器&＃xff0c;如雷达、红外、加速度计等。

以上的每一种都可以称为一种模态。

多模态机器学习&＃xff0c;英文全称 MultiModal Machine Learning (MMML)&＃xff0c;旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

该博文参考了https://www.cs.cmu.edu/~morency/MMML-Tutorial-ACL2017.pdf&＃xff0c;主要从以下五个方向进行了介绍。

在这里插入图片描述

1. 多模态表示学习

联合表示 &＃xff1a; 联合表示将多个模态的信息一起映射到一个统一的多模态向量空间&＃xff1b;
协同表示 &＃xff1a; 协同表示负责将多模态中的每个模态分别映射到各自的表示空间&＃xff0c;但映射后的向量之间满足一定的相关性约束&＃xff08;例如线性相关&＃xff09;。
利用多模态表示学习到的特征可以用来做信息检索&＃xff0c;也可以用于的分类/回归任务。
两个例子
– 表示学习 : 学习图片和文本的联合概率分布 P(图片&＃xff0c;文本)。在应用阶段&＃xff0c;输入图片&＃xff0c;利用条件概率 P(文本|图片)&＃xff0c;生成文本特征&＃xff0c;可以得到图片相应的文本描述&＃xff1b;而输入文本&＃xff0c;利用条件概率 P(图片|文本)&＃xff0c;可以生成图片特征&＃xff0c;通过检索出最靠近该特征向量的两个图片实例&＃xff0c;可以得到符合文本描述的图片

– 协同学习&＃xff1a;狗的图片特征向量 - 狗的文本特征向量 &＃43; 猫的文本特征向量 &＃61; 猫的图片特征向量 -> 在特征向量空间&＃xff0c;根据最近邻距离&＃xff0c;检索得到猫的图片

2. 转化 Translation / 映射 Mapping

转化也称为映射&＃xff0c;负责将一个模态的信息转换为另一个模态的信息。常见的应用包括

机器翻译
图片描述或者视频描述&＃xff08;Video captioning)
语音合成&＃xff08;Speech Synthesis&＃xff09;

模态间的转换主要有两个难点:

一个是open-ended&＃xff0c;即未知结束位
例如实时翻译中&＃xff0c;在还未得到句尾的情况下&＃xff0c;必须实时的对句子进行翻译

另一个是subjective&＃xff0c;即主观评判性
是指很多模态转换问题的效果没有一个比较客观的评判标准&＃xff0c;也就是说目标函数的确定是非常主观的。

3. 对齐 Alignment

多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。

时间维度
空间维度

4. 多模态融合 Multimodal Fusion

还存在其他常见的别名&＃xff0c;
多源信息融合&＃xff08;Multi-source Information Fusion&＃xff09;
多传感器融合&＃xff08;Multi-sensor Fusion)。

按照融合的层次&＃xff0c;可以将多模态融合分为 pixel level&＃xff0c;feature level 和 decision level 三类

难点&＃xff1a;

主要包括如何判断每个模态的置信水平、
如何判断模态间的相关性、
如何对多模态的特征信息进行降维
如何对非同步采集的多模态数据进行配准等。

下面列举几个比较热门的研究方向。

1. 视觉-音频识别
在这里插入图片描述
2. 多模态情感分析

3.手机身份认证
综合利用手机的多传感器信息&＃xff0c;认证手机使用者是否是注册用户。

5. 协同学习 Co-learning

协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。

迁移学习
迁移学习比较常探讨的方面目前集中在领域适应性问题上
还有zero-shot learning 与 one-shot learning.
协同训练
负责研究如何在多模态数据中将少量的标注进行扩充&＃xff0c;得到更多的标注信息。

推荐阅读

io
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
php
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
io
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
default
Spring Cloud Config 使用 Vault 作为配置存储

本文探讨了如何在Spring Cloud Config中集成HashiCorp Vault作为配置存储解决方案，基于Spring Cloud Hoxton.RELEASE及Spring Boot 2.2.1.RELEASE版本。文章还提供了详细的配置示例和实践建议。 ... [详细]

蜡笔小新 2024-12-18 16:40:26
io
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
replace
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
io
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
php
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
php
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
io
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
io
Python第三方库安装的多种途径及注意事项

本文详细介绍了Python第三方库的几种常见安装方法，包括使用pip命令、集成开发环境（如Anaconda）以及手动文件安装，并提供了每种方法的具体操作步骤和适用场景。 ... [详细]

蜡笔小新 2024-12-23 13:47:08
io
HTML 文件上传按钮的样式设计

本文详细介绍了如何使用 HTML 和 CSS 对文件上传按钮进行样式美化，使用户界面更加友好和美观。 ... [详细]

蜡笔小新 2024-12-20 18:30:59
io
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
hash
最强阿里及大厂350道面试大全：框架+数据库+并发+开源+微服务

前言无论是对于刚入行工作还是已经工作几年的java开发者来说，面试求职始终是你需要直面的一件事情。首先梳理自己的知识体系，针对性准备，会有事半功倍的效果。我们往往会把重点放在技术上 ... [详细]

蜡笔小新 2024-12-18 15:33:00
io
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15

q40796672

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章