热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多模态学习(一)初识

一、博文推荐多模态学习综述及最新方向链接:-1.https:zhuanlan.zhihu.comp389287751(简略版)-2.https:zhuanlan.z



一、博文推荐

多模态学习综述及最新方向
链接:
- 1. https://zhuanlan.zhihu.com/p/389287751 (简略版)
- 2. https://zhuanlan.zhihu.com/p/353681958 (详细版)
- 3. https://bbs.huaweicloud.com/blogs/264134 (归纳总结版本-推荐!)
来源文章:TPAMI综述文献
Multimodal machine learning: A survey and taxonomy.

二、综述论文推荐

国内:

  1. 何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(05):1-11.DOI:10.19678/j.issn.1000-3428.0057370.
  2. 孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10.
  3. 陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(05):557-569.DOI:10.13374/j.issn2095-9389.2019.03.21.003.
  4. 牟智佳,符雅茹.多模态学习分析研究综述[J].现代教育技术,2021,31(06):23-31.

三、什么是多模态机器学习?

学习来源: https://blog.csdn.net/electech6/article/details/85142769

每一种信息的来源或者形式,都可以称为一种模态。例如:

  • 人有触觉,听觉,视觉,嗅觉;
  • 信息的媒介,有语音、视频、文字等;
  • 多种多样的传感器,如雷达、红外、加速度计等。

以上的每一种都可以称为一种模态。


多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

该博文参考了https://www.cs.cmu.edu/~morency/MMML-Tutorial-ACL2017.pdf,主要从以下五个方向进行了介绍。

在这里插入图片描述

1. 多模态表示学习


  • 联合表示 : 联合表示将多个模态的信息一起映射到一个统一的多模态向量空间;
  • 协同表示 : 协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。
  • 利用多模态表示学习到的特征可以用来做信息检索,也可以用于的分类/回归任务。
  • 两个例子
    表示学习 : 学习图片和文本的联合概率分布 P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片
    在这里插入图片描述
    协同学习:狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片在这里插入图片描述

2. 转化 Translation / 映射 Mapping

转化也称为映射,负责将一个模态的信息转换为另一个模态的信息。常见的应用包括

  • 机器翻译
  • 图片描述 或者 视频描述(Video captioning)
  • 语音合成(Speech Synthesis)

模态间的转换主要有两个难点:

  • 一个是open-ended,即未知结束位
    例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译

  • 另一个是subjective,即主观评判性
    是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。

3. 对齐 Alignment

多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。

  1. 时间维度
    在这里插入图片描述

  2. 空间维度
    在这里插入图片描述


4. 多模态融合 Multimodal Fusion

还存在其他常见的别名,
多源信息融合(Multi-source Information Fusion)
多传感器融合(Multi-sensor Fusion)。

按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类

难点:

  • 主要包括如何判断每个模态的置信水平、
  • 如何判断模态间的相关性、
  • 如何对多模态的特征信息进行降维
  • 如何对非同步采集的多模态数据进行配准等。

下面列举几个比较热门的研究方向

1. 视觉-音频识别
在这里插入图片描述
2. 多模态情感分析
在这里插入图片描述

3.手机身份认证
综合利用手机的多传感器信息,认证手机使用者是否是注册用户。

5. 协同学习 Co-learning

协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。

  • 迁移学习
    迁移学习比较常探讨的方面目前集中在领域适应性问题上
    还有zero-shot learning 与 one-shot learning.
  • 协同训练
    负责研究如何在多模态数据中将少量的标注进行扩充,得到更多的标注信息。






推荐阅读
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 中科院学位论文排版指南
    随着毕业季的到来,许多即将毕业的学生开始撰写学位论文。本文介绍了使用LaTeX排版学位论文的方法,特别是针对中国科学院大学研究生学位论文撰写规范指导意见的最新要求。LaTeX以其精确的控制和美观的排版效果成为许多学者的首选。 ... [详细]
  • 由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络(TP-GAN),该技术能通过单一侧面照片生成逼真的正面人脸图像,显著提升了不同姿态下的人脸识别效果。 ... [详细]
  • 本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念,结合具体的数据集,详细介绍了决策树的构建过程,并展示了其在实际应用中的效果。 ... [详细]
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 本次考试于2016年10月25日上午7:50至11:15举行,主要涉及数学专题,特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目,并提供解题思路和代码实现。 ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • Python 工具推荐 | PyHubWeekly 第二十一期:提升命令行体验的五大工具
    本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]
  • 多核环境下大规模线性分类的并行对偶坐标下降算法
    本文介绍了一种适用于多核环境的大规模线性分类问题的并行对偶坐标下降算法。该方法通过优化计算资源的分配,显著提高了处理效率和模型性能。论文《Parallel Dual Coordinate Descent Method for Large-scale Linear Classification in Multi-core Environments》详细探讨了这一算法,并提供了实验验证。 ... [详细]
  • LambdaMART算法详解
    本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程,包括其前身RankNet和LambdaRank,然后深入探讨了LambdaMART如何结合梯度提升决策树(GBDT)和LambdaRank来优化排序问题。 ... [详细]
  • 全能终端工具推荐:高效、免费、易用
    介绍一款备受好评的全能型终端工具——MobaXterm,它不仅功能强大,而且完全免费,适合各类用户使用。 ... [详细]
  • 本文探讨了亚马逊Go如何通过技术创新推动零售业的发展,以及面临的市场和隐私挑战。同时,介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]
author-avatar
q40796672
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有