在之前的课程中,我们为大家先后介绍了 MLP、DBN、CNN、RNN 等网络结构的建模,我们的网络输入也从结构化数据拓展到图片、文本等复杂的非结构化数据。其实现实应用中的很多问题,往往不会从单一维度进行建模,很多时候我们需要同时考虑视觉、听觉等多维度的信息特征甚至基于这些信息同时完成多个目标的学习,而非单一目标。这些应用场景相对于之前我们介绍的问题会复杂一些,使用 Deeplearning4j 落地的时候会使用到一些相对高级的特性,这里我们就集中对部分高级特性做一些介绍。本节课核心内容包括:
- 多模态(Multi-modal)建模
- 多任务(Multi-task)建模
20.1 多模态(Multi-modal)建模
在本课的引言中我们谈到的视觉、听觉等都可以认为是一种独立的模态。当然模态的定义可以有很多不同的理解,比如信息采集的来源不同我们也可以认为是两种独立的模态。作为信息的载体,图像、文字等同样可以认为是不同的模态。在这个部分中,我们为大家介绍同时基于文本和图像的分类问题的建模。
之前的课程我们也介绍了很多的分类问题,如:图像和文本的分类。当然从模态的角度去看,之前的分类问题都是单模态的建模,输入全部都是图像或者文本。很多时候,单模态的建模虽然也会达到一定的应用效果,但是毫无疑问地,有用信息越多对于目标的优化肯定越有利,因此多模态的建模就变得非常有意义了。我们首先看下面这张图:
从图中可以看到,从图片或者文字单一模态我们已经可以在一定程