热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

论文阅读:《MultimodalMachineLearning:ASurveyandTaxonomy》

来源:Arxiv[https:arxiv.orgabs1705.09406]模态:Modality:模态,某事发生或经历的方式Multimodal:多模态naturallangua

来源:Arxiv[https://arxiv.org/abs/1705.09406]



模态:

Modality:模态,某事发生或经历的方式

Multimodal:多模态

natural language :which can be both written or spoken 自然语言

visual signals: which are often represented with images or videos 视觉图片以及视频

vocal signals: which encode sounds and para-verbal information such as prosody and vocal expressions 声音



 


多模态面临的挑战:

1、表征(Representation:如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据(how to represent and summarize multimodal data in a way that exploits the complementarity and redundancy of multiple modalities)

多模态数据的异质性:语言通常是象征性的,而音频和视觉形式将被表示为信号

2、翻译(Translation):如何将数据从一种模态转换(映射)到另一种模态(how to translate (map) data from one modality to another)

模态之间的关系通常是开放式的或主观的:存在多种描述图像的正确方法,并且可能不存在一种完美的翻译

3、对齐(Alignment):从两个或多个不同的模态中识别(子)元素之间的直接关系(identify the direct relations between (sub)elements from two or more different modalities)

4、融合(Fusion):结合来自两种或多种模态的信息来执行预测(join information from two or more modalities to perform a prediction)

5、联合学习(Co-learning):在模态、它们的表示和它们的预测模型之间转移知识(transfer knowledge between modalities, their representation, and their predictive models)

协同训练co-training     零样本学习zero shot learning



 


任务:




表征 Representation:

解释:试图通过各模态的信息找到某种对多模态信息的统一表示

难题:如何组合来自异构来源的数据;如何处理不同级别的噪音;以及如何处理丢失的数据

好的表征的特点:



  • 平滑度 smoothness

  • 时间和空间连贯性 temporal and spatial coherence

  • 稀疏性 sparsity

  • 自然聚类 natural clustering

两种表征思路:

1、联合 joint

单模态的表示联合投影到多模态的联合表示

神经网络模型:通常使用最后或倒数第二个神经层作为单模态数据表示的一种形式,为了使用神经网络构建多模态表示,每个模态都从几个单独的神经层开始,然后是一个隐藏层,将模态投影到联合空间,然后联合多模态表示本身通过多个隐藏层或直接用于预测

概率图模型 Probabilistic graphical

RNN序列模型

tips:autoencoder models 自动编码器

2、协调 coordinated

每个模态学习单独的表示,并通过约束进行协调

基于相似度的模型:最小化协调空间中模态之间的距离

结构化协调模型:用于跨模态散列——将高维数据压缩成具有相似对象的相似二进制代码的紧凑二进制代码

代表:

 

 




 


翻译 Translation:

解释:将一种模态数据映射为另一种模态数据

两种思路:

1、example-based 基于示例的



  • 翻译 跨模式检索 图像描述......

2、generative 生成



  • 基于语法(grammar-based), 编码器-解码器模型(encoder-decoder), 连续生成(continuous generation)【基于源模态输入流连续生成目标模态,最适合在时间序列之间进行转换】

代表:

 

 




对齐 Alignment:

解释:从两个甚至多个模态中寻找事物子成份之间的关系和联系。比如给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述中对应的表述。又比如给定一个美食制作视频和对应的菜谱,实现菜谱中的步骤描述与视频分段的对应。

两种思路:

1、显式对齐 explicit



  • 重点是相似性度量。两种方法:无监督(动态时间扭曲 DTW) 、弱监督

2、隐式对齐 implicit



  • 学习如何在模型训练期间潜在地对齐数据。两种方法:图模型、神经网络模型(使用attention机制)

  • 图像字幕中,注意力机制将允许解码器(通常是 RNN)在生成每个连续单词时专注于图像的特定部分;

  • 问答任务,允许将问题中的单词与信息源的子组件(例如一段文本[236]、图像[65]或视频序列)对齐。

 

 




融合 Fusion:

解释:从多个模态信息中整合信息来完成分类或回归任务

融合的价值:



  • 在观察同一个现象时引入多个模态,可能带来更健壮(robust)的预测

  • 接触多个模态的信息,可能让我们捕捉到互补的信息(complementary information),尤其是这些信息在单模态下并不"可见"时

  • 一个多模态系统在缺失某一个模态时依旧能工作

两种思路:

1、无模型 model-agnostic



  • 早期(基于特征,在特征被提取后立即集成(通常通过简单地连接它们的表示),比较简单)

  • 晚期(基于决策,在每种模态做出决定(例如分类或回归)后执行整合,方法包括:平均、投票方案、基于信道噪声的加权、信号方差、学习模型,允许为每个模态使用不同的模型,因为不同的预测器可以更好地对每个单独的模态进行建模,从而提供更大的灵活性;当缺少一种或多种模态时,它可以更轻松地进行预测,甚至可以在没有并行数据时进行训练,然而忽略了模态之间的低级交互)

  • 混合融合(早期融合和单个单峰预测器的输出)

2、基于模型 model-based



  • Multiple Kernel learning(MKL),多核学习(将不同的核用于不同的数据模态/视图)

  • Graphical models,图模型 后续可以看看

  • Neural Networks,神经网络 循环神经网路,进行端到端的训练

 




共同学习 Co-learning:

解释:通过利用来自另一种(资源丰富)模态的知识来帮助(资源贫乏)模态建模;辅助模态(helper modality)通常只参与模型的训练过程,并不参与模型的测试使用过程

三种方法:

1、并行



  • 需要训练数据集,其中来自一种模态的观察结果与来自其他模态的观察结果直接相关;协同训练、表示学习、迁移学习

2、非并行



  • 不需要来自不同模式的观察之间的直接联系,通常通过使用类别重叠来实现共同学习;零样本学习ZSL

3、混合



  • 通过共享模式或数据集桥接



推荐阅读
  • 本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤,包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]
  • QBlog开源博客系统:Page_Load生命周期与参数传递优化(第四部分)
    本教程将深入探讨QBlog开源博客系统的Page_Load生命周期,并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 本文探讨了如何像程序员一样思考,强调了将复杂问题分解为更小模块的重要性,并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]
  • python的交互模式怎么输出名文汉字[python常见问题]
    在命令行模式下敲命令python,就看到类似如下的一堆文本输出,然后就进入到Python交互模式,它的提示符是>>>,此时我们可以使用print() ... [详细]
  • 火星商店问题:线段树分治与持久化Trie树的应用
    本题涉及编号为1至n的火星商店,每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品,以及查询某段时间内某些商店中所有商品(含永久商品)与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]
  • Java 中的 BigDecimal pow()方法,示例 ... [详细]
  • 本文总结了汇编语言中第五至第八章的关键知识点,涵盖间接寻址、指令格式、安全编程空间、逻辑运算指令及数据重复定义等内容。通过详细解析这些内容,帮助读者更好地理解和应用汇编语言的高级特性。 ... [详细]
  • 探讨如何高效使用FastJSON进行JSON数据解析,特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 本文详细介绍了如何使用Maven高效管理多模块项目,涵盖项目结构设计、依赖管理和构建优化等方面。通过具体的实例和配置说明,帮助开发者更好地理解和应用Maven在复杂项目中的优势。 ... [详细]
  • 本文介绍了如何在具备多个IP地址的FTP服务器环境中,通过动态地址端口复用和地址转换技术优化网络配置。重点讨论了2Mb/s DDN专线连接、Cisco 2611路由器及内部网络地址规划。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 本文介绍了在安装或运行 Python 项目时遇到的 'ModuleNotFoundError: No module named setuptools_rust' 错误,并提供了解决方案。 ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • 构建基于BERT的中文NL2SQL模型:一个简明的基准
    本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。 ... [详细]
author-avatar
1500799277_a9483d_353
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有