AI综述专栏 | 多模态机器学习综述

AI综述专栏简介

在科学研究中，从方法论上来讲，都应先见森林，再见树木。当前，人工智能科技迅猛发展，万木争荣，更应系统梳理脉络。为此，我们特别精选国内外优秀的综述论文，开辟“综述”专栏，敬请关注。

参考文献：T. Baltrušaitis, C. Ahuja and L. Morency, “Multimodal Machine Learning: A Survey and Taxonomy,” in IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）, vol. 41, no. 2, pp. 423-443, 1 Feb. 2019.

【摘要】我们对世界的体验是多模式的，我们看到物体，听到声音，感觉到纹理，闻到气味和尝到味道。模态是指某种事物发生或经历的方式，并且当研究问题包括多种这样的形式时，研究问题被描述为多模态。为了使人工智能在理解我们周围的世界方面取得进展，它需要能够一起解释这种多模信号。多模式机器学习旨在构建可以处理和关联来自多种模态信息的模型。这是一个充满活力的多学科领域，具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用，而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类，并确定了多模式机器学习所面临的更广泛的挑战，即：表示，翻译，对齐，融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况，并确定未来研究的方向。

关键字：多模态机器学习介绍综述

1 介绍

1、我们周围的世界有多种模式-我们看到物体，听到声音，感觉质地，闻到气味，等等。一般来说，模态是指某物发生或经历的方式。大多数人把模态这个词与代表我们主要沟通和感知渠道的感觉方式联系起来，如视觉和触觉。因此，当一个研究问题或数据集包含多个这样的模式时，它就具有多模态的特征。在本文中，我们主要关注但不限定三种模式：既可以写也可以说的自然语言；通常用图像或视频表示的视觉信号；编码声音和副词信息的声音信号，如韵律、声乐等。

2、为了让人工智能在了解我们周围的世界方面取得进展，它需要能够解释和推理多模态信息。多模态机器学习旨在建立能够处理和关联来自多个模态的信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，并且重要性日益提高，潜力巨大。

3、由于数据的异构性，多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。从多模态信息源中学习提供了捕获模态之间的对应关系并获得对自然现象深入理解的可能性。本文对多模态机器学习的五个核心技术挑战（及其相关子挑战）进行了识别和探讨。

它们是多模态学习的中心，需要处理才能促进该领域发展。我们的综述超越了典型的早期和晚期融合分割，包括以下五个挑战：

表示：第一个基本挑战是学习如何以一种利用多种模态的互补性和冗余性的方式表示和汇总多模式数据。多模数据的异构性使得构造这样的表示方法具有挑战性。例如，语言通常是象征性的，而音频和视频形式将被表示为信号。
翻译：第二个挑战是如何将数据从一种模式转换(映射)到另一种模式。不仅异构数据，而且模式之间的关系往往是开放的或主观的。例如，有许多正确的方法来描述一个图像，一个完美的映射可能不存在。
对齐：第三个挑战是确定来自两种或两种以上不同模式的(子)元素之间的直接关系。例如，我们可能希望将菜谱中的步骤与显示正在制作的菜肴的视频对齐。为了解决这一挑战，我们需要度量不同模式之间的相似性，并处理可能的长期依赖性和模糊性。
融合：第四个挑战是连接来自两个或多个模式的信息来执行预测。例如，在视听语音识别中，将唇动的视觉描述与语音信号融合，预测语音单词。来自不同模式的信息可能具有不同的预测能力和噪声拓扑结构，其中至少有一种模式可能丢失数据。
共同学习：第五个挑战是在模态、它们的表示和它们的预测模型之间传递知识。这一点可以用协同训练、概念基础和零样本学习的算法来举例说明。协同学习探索了从一个模态中学习知识如何帮助在不同模态中训练的计算模型。当其中一种模式的资源有限（例如，注释数据）时，这一挑战尤其重要。

针对这五个挑战中的每一个，我们定义了分类和子类，以帮助构建多模态机器学习这一新兴研究领域的最新工作。我们首先讨论多模态机器学习的主要应用(第2节)，然后讨论多模态机器学习面临的五个核心技术挑战的最新发展:表示(第3节)、翻译(第4节)、对齐(第5节)、融合(第6节)和共同学习(第7节)。最后，我们将在第8节进行讨论。

表一：多模态机器学习的应用概述。对于每个应用领域，我们都确定了为了解决它而需要解决的核心技术挑战

2 应用：历史视角

1、多模式机器学习可以实现广泛的应用：从视听语音识别到图像描述。在本节中，我们简要介绍了多模应用的历史，从视听语音识别的开始到最近对语言和视觉应用的新兴趣。

2、多模态研究最早的例子之一是视听语音识别（audio-visual speech recognition avsr）[243]。它的灵感来自麦格克效应（McGurk effect）[138]——在语音感知过程中听觉和视觉之间的相互作用。当受试者在观看一个人说/ga-ga/时听到音节/ba-ba/，他们感觉到第三个声音是/da-da/。在给自愿者放映的一部影片中，一个音节“ga”在配音时发作了“ba”，而自愿者称听到的音节是却是“da”。这样一来，视听信息联手创造出了第三种全新的声音，这个过程现在被叫做“麦格克效应”。这是大脑对于来自眼睛和耳朵所提供的矛盾信息的努力猜测，这个理论也证明眼睛（视觉信息）对于大脑意识与知觉的影响比其他感觉器官所提供的信息更大。另一项研究发现，视觉信息的不一致可以改变对于口语发音的感知，这表明了麦格克效应可能在人们生活中许多外在感知上产生影响。

这些结果激发了许多来自言语社区的研究者们用视觉信息来扩展他们的研究方法。考虑到隐藏马尔可夫模型(hidden Markov model, HMMs)在当时的语音社区中的突出地位[95]，AVSR的许多早期模型基于各种HMM扩展[24]、[25]就不足为奇了。虽然目前对AVSR的研究并不常见，但它已经引起了深度学习界的新兴趣[151]。

3、虽然AVSR的原始视觉是为了提高语音识别性能（例如，字错误率），但实验结果表明，视觉信息的主要优点提现在当语音信号有噪声（即，低信噪比）时[75]、[151]、[243]。换言之，模式之间的相互作用是增补的而不是补充(叠加式而非互补式)。两种方法都获得了相同的信息，提高了多模态模型的鲁棒性，但没有改善无噪声场景下的语音识别性能。

4、第二种重要的多模态应用来自多媒体内容索引和检索领域[11]，[188]。随着个人电脑和互联网的发展，数字化多媒体内容的数量急剧增加。[2] 虽然早期索引和搜索这些多媒体视频的方法是基于关键字的[188]，但在尝试直接搜索视觉和多模态内容时出现了新的研究问题。这导致了多媒体内容分析领域的新研究课题，如自动镜头边界检测[123]和视频总结[53]。这些研究项目得到了国家标准与技术研究所（National Institute of Standards and Technologies）的Trecvid倡议的支持，该倡议引入了许多高质量数据集，包括2011年开始的多媒体事件检测（multimedia event detection MED）任务[1]。

第三类应用是在本世纪初围绕多模态交互的新兴领域建立的，目的是了解人类在社会交互过程中的多模态行为。AMI会议语料库是该领域最早收集的具有里程碑意义的数据集之一，该语料库包含100多个小时的会议视频记录，全部完整转录并标注了[33]。另一个重要的数据集是SEMAINE语料库，它可以研究说话者和听者之间的人际动态[139]。该数据集是2011年组织的第一次视听情感挑战(AVEC)的基础[179]。由于自动人脸检测、面部标志物检测和面部表情识别[46]技术的强大进步，情绪识别和情感计算领域在2010年代初蓬勃发展。AVEC的挑战在之后每年都会继续，随后的实例化包括医疗应用程序，如抑郁和焦虑的自动评估[208]。D ‘Mello 等[50]对多模态情感识别的最新进展进行了综述。他们的元分析显示，最近关于多模态情感识别的大部分研究表明，当使用多个模态时，多模态情感识别效果有所改善，但这种改善在识别自然发生的情感时有所减弱。

最近，出现了一种强调语言和视觉的多模态应用新类别:媒体描述。最具代表性的应用程序之一是图像描述，其中的任务是生成输入图像的文本描述[83]。这是由这种系统帮助视障人士完成日常任务的能力。媒体描述面临的主要挑战是评价:如何评价预测描述的质量。视觉问答(visual question-answering, VQA)的任务最近提出，以解决一些评价挑战的[9]，其中的目标是回答有关图像的特定问题。

为了将上述的一些应用带到现实世界中，我们需要解决多模态机器学习所面临的一些技术挑战。我们在表1中总结了上述应用领域的相关技术挑战。最重要的挑战之一是多模态表示，这是我们下一节的重点。

3、多模态表示

以计算模型可以使用的格式表示原始数据一直是机器学习中的一大挑战。根据Bengio等人的工作[18]，我们可以互换使用术语“特征”和“表示”，每一个都指一个实体的向量或张量表示，无论是图像、音频样本、单个单词或句子。多模表示是使用来自多个这样的实体的信息来表示数据的一种表示。表示多种形式存在许多困难：如何组合来自不同来源的数据；如何处理不同级别的噪声；以及如何处理丢失的数据。以有意义的方式表示数据的能力对于多模式问题至关重要，并且是任何模型的主干。

良好的表示对于机器学习模型的性能非常重要，这一点在语音识别和视觉对象分类系统的性能最近的飞跃中得到了证明。Bengio等人的[18]识别了许多良好表示的属性:平滑性、时间和空间相干性、稀疏性和自然聚类等。Srivastava和Salakhutdinov[198]确定了多模态表示的其他理想属性:表示空间中的相似性应该反映出相应概念的相似性，即使在没有一些模态的情况下也应该很容易得到表示，最后，在给定观察到的模态的情况下，应该有可能补全缺失的模态。

单模态表示的发展已被广泛研究[5]，[18]，[122]。在过去的十年中，已经出现了从手工设计的特定应用到数据驱动的转变。例如，本世纪初最著名的图像描述符之一，尺度不变特征变换(SIFT)是人工设计的[127]，但目前大部分的视觉描述都是通过神经网络(CNN)等神经结构从数据中学习的[109]。类似地，在音频领域，诸如梅尔频率倒谱系数（MFCC）之类的声学特征已被语音识别中的数据驱动的深度神经网络[79]和用于语言分析的递归神经网络所取代[207]。在自然语言处理中，文本特征最初依赖于计算文档中的单词出现次数，但已被利用单词上下文的数据驱动的单词嵌入(word embeddings)所取代[141]。虽然在单模态表示方面有大量的工作，但直到最近，大多数多模态表示都涉及单模态的[50]的简单连接，但这种情况正在迅速变化。

为了帮助理解工作的广度，我们提出了两类多模态表示:联合和协调。联合表示将单模态信号组合到同一个表示空间中，而协调表示单独处理单模态信号，但对其施加一定的相似性约束，使其达到我们所说的协调空间。图1展示了不同的多模态表示类型。在数学上，联合表示为:

xm=f(x1…xn) (1)

其中，多模态表示xm使用依赖于单模态表示x1…xn的函数f(例如，深度神经网络、受限玻尔兹曼机或递归神经网络)计算.

协调表示如下：f(x1) ∼ g(x2) （2）

其中每个模态都有对应的投影函数(f和g)，将其映射到一个协调的多模态空间。而投影到每个形态的多通道空间是独立的,但它们之间产生的结果空间是协调的(表示为∼)。这种协调的例子包括最小化余弦距离[61]，最大化相关[7]，以及在结果空间之间强制执行偏序[212]。

图一：联合表示和协调表示的结构。联合表示使将关节表示投影到同一空间，作为输入的模式。协调表示存在于各自的空间中，但通过相似性（例如欧几里得距离）或结构约束（例如部分顺序）进行协调。

3.1 联合表示

我们从将单模表示投影到多模空间（方程式1）的联合表示开始讨论。联合表示法主要（但不是唯一）用于在训练和推理步骤中同时存在多模态数据的任务。联合表示的最简单示例是单个模态特征的串联（也称为早期融合[50]）。在本节中，我们讨论了创建联合表示的更先进的方法，首先是神经网络，然后是图形模型和循环神经网络（代表性工作见表2）。

神经网络已成为一种非常流行的单模态数据表示方法。它们用于表示视觉、声学和文本数据，并且越来越多地用于多模态领域[151]、[156]和[217]。在本节中，我们将描述如何使用神经网络来构建联合多模态表示，如何训练它们，以及它们提供了哪些优势。

一般来说，神经网络由连续的内积构建块和非线性激活函数组成。为了使用神经网络来表示数据，首先要训练它执行特定的任务（例如识别图像中的对象）。由于深层神经网络的多层性，假设每一层后续的神经网络以更抽象的方式来表示数据[18]，因此通常使用最后一层或倒数第二层神经网络作为一种数据表示形式。为了使用神经网络构建一个多模态表示，每个模态都从几个单独的神经层开始，然后是一个隐藏层，该层将模态投射到一个共同空间[9]，[145]，[156]，[227]。

表二：多模表示技术综述。我们确定了三个联合表示的子类型（第3.1节）和两个协调表示的子类型（第3.2节）。对于模态+表示组合模态

然后，联合多模态表示通过多个隐含层本身或直接用于预测。这种模型可以进行端到端训练——学习如何表示数据和执行特定任务。在神经网络中，多模态表示学习与多模态融合有着密切的关系。

由于神经网络需要大量带标签的训练数据，因此通常使用自动编码器对无监督数据进行预训练[80]。Ngiam等人提出的模型[151]将使用自动编码器的思想扩展到多模域。他们使用堆叠式去噪自动编码器分别表示每个模态，然后使用另一个自动编码器层将它们融合成多模态表示。同样，Silberer和Lapata[184]提议使用多模自动编码器来完成语义概念基础的任务（见第7.2节）。除了使用重构损失训练表示，它们还将一个术语引入到使用表示来预测对象标签的损失函数中。由于使用AutoEncoder构造的表示是通用的，不一定是针对特定任务优化的，因此通常对手头特定任务的结果表示进行微调[217]。

基于神经网络的联合表示的主要优势在于其通常具有优越的性能，并且能够在无监督的情况下对表示进行预训练。然而，性能的提高取决于可用于训练的数据量。缺点之一是模型不能自然地处理丢失的数据——尽管有一些方法可以缓解这个问题[151]，[217]。最后，深度网络往往很难训练[69]，但该领域在更好的训练技术方面正在取得进展[196]。

概率图形模型是另一种通过使用潜在随机变量来构造表示的常用方法[18]。在本节中，我们将描述如何使用概率图模型来表示单模和多模数据。基于图形模型的表示最流行的方法是受限玻尔兹曼机：deep Boltzmann machines (DBM)[176]，将restricted Boltzmann machines (RBM)[81]堆叠起来作为构建块。与神经网络类似，DBM的每个连续层都期望在更高的抽象级别上表示数据。DBMs的吸引力来自于他们不需要监督数据进行训练的事实[176]。由于它们是图形模型，因此数据的表示是概率的，但是可以将它们转换为确定性神经网络——但这就失去了模型的生成方面[176]。

Srivastava和Salakhutdinov[197]的工作引入了多模态深度信念网络作为多模态表征。Kim等[104]对每一种模态都使用了一个深度信念网络，然后将其组合成联合表征进行视听情感识别。Huang and KingsburyAVSR[86]采用了类似的模型，Wu等[225]基于音频和骨骼关节的手势识别。

Srivastava和Salakhutdinov[198]将多模态深度信念网络扩展到了多模态DBMs中。多模态DBMs能够从多种模态中学习联合表示，方法是使用隐藏单元的二进制层合并两个或多个无向图。由于模型的无向性，它们允许每个模态的低级表示在联合训练后相互影响。Ouyang等[156]探讨了多模态DBMs在多视图数据人体姿态估计中的应用。他们证明，在单模态数据经过非线性转换后的后期对数据进行集成对模型是有益的。同样，Suk等[199]利用多模态DBM表示法从正电子发射断层扫描和磁共振成像数据中对阿尔茨海默病进行分类。使用多模态DBMs学习多模态表示的最大优点之一是其生成特性，这允许以一种简单的方式处理丢失的数据——即使整个模态丢失，模型也有一种自然的处理方法。它还可以用于在另一种模态存在的情况下生成一种模态的样本，或者从表示中生成两种模态的样本。与自动编码器类似，可以以非监督的方式对表示进行训练，从而支持使用未标记的数据。DBMs的主要缺点是训练困难，计算成本高，需要使用近似变分训练方法[198]。

顺序表示。到目前为止，我们已经讨论了可以表示固定长度数据的模型，但是，我们通常需要表示不同长度的序列，例如句子、视频或音频流。在本节中，我们将描述可用于表示此类序列的模型。递归神经网络(RNNs)及其变体，如长-短时记忆(LSTMs)网络[82]，由于在不同任务的[12]序列建模方面的成功，近年来受到了广泛的欢迎[213]。到目前为止，RNNs主要用于表示单模态的单词、音频或图像序列，在语言领域取得了很大的成功。与传统神经网络相似，RNN的隐藏状态可以看作是数据的一种表示，也就是说，RNN在时间步t处的隐藏状态可以看作是该时间步之前序列的总结。这在RNN编码器框架中尤为明显，编码器的任务是以解码器可以重构的方式来表示处于RNN隐藏状态的序列[12]。RNN表示的使用并不局限于单模态域。使用rns构造多模态表示的早期使用来自Cosi等人在AVSR上的工作。它们还用于表示影响识别的视听数据[37]、[152]和表示多视图数据，例如用于人类行为分析的不同视觉线索[166]。

3.2协同表示

联合多模表示的一种替代方法是协同表示。我们不是将模态一起投影到一个联合空间中，而是为每个模态学习单独的表示，但是通过一个约束来协调它们。我们从强调表示之间的相似性的协调表示开始讨论，接着讨论在结果空间上加强结构的协调表示(表2中可以看到不同协调表示的代表性作品)。相似模型最小化了协调空间中模态之间的距离。例如，这种模型鼓励“狗”和“狗”两个词的表示，它们之间的距离小于“狗”和“汽车”两个词之间的距离[61]。最早的例子之一就是韦斯顿等人的研究。在WSABIE（通过图像嵌入的网络比例注释）模型中，为图像及其注释构建了一个协调的空间。WSABIE从图像和文本特征构造了一个简单的线性映射，这样相应的注释和图像表示在它们之间会比不相关的注释和图像表示有更高的内积（更小的余弦距离）。

近年来，神经网络由于具有学习表示的能力，已成为一种常用的构造协调表示的方法。它们的优势在于能够以端到端的方式共同学习协调的表示。这种协调表示的一个例子是设计——深度视觉语义嵌入[61]。设计使用了类似于WSABIE的内积和排序损失函数，但使用了更复杂的图像和单词嵌入。Kiros等[105]利用LSTM模型和两两排序损失来协调特征空间，将其扩展到句子和图像的协调表示。Socher等人[191]处理了相同的任务，但将语言模型扩展到依赖树RNN以合并组合语义。Pan等人也提出了类似的模型。[159]，但使用视频而不是图像。Xu等人[231]还使用主题、动词、宾语组合语言模型和深层视频模型构建了视频和句子之间的协调空间。然后将该表示用于跨模式检索和视频描述任务。

虽然上面的模型强制表示之间的相似性，但结构化的协调空间模型超越了这一点，并且在模态表示之间强制执行额外的约束。强制的结构类型通常基于应用程序，对于散列、跨模态检索和图像标题有不同的约束。结构化协调空间通常用于跨模式散列-将高维数据压缩为紧凑的二进制代码，并对类似对象使用相似的二进制代码[218]。跨模式散列的思想是为跨模式检索创建这样的代码[27]、[93]、[113]。哈希对产生的多模态空间施加一定的约束: 1）它必须是一个n维汉明空间-一个二进制表示，位数可控；2）来自不同模态的同一对象必须具有相似的散列码；3）空间必须保持相似性。学习如何将数据表示为哈希函数，试图实现这三个要求[27][113]。例如，Jiang和Li[92]提出了一种利用端到端可训练的深度学习技术来学习句子描述和相应图像之间这种常见的二进制空间的方法。Cao等人对该方法进行了扩展，采用了更复杂的LSTM语句表示，引入了离群点不敏感的逐位边缘损失和基于相关性反馈的语义相似约束。同样，Wang等人[219]构建了一个协调的空间，其中具有相似含义的图像（和句子）彼此更接近。

结构化协调表示的另一个例子来自图像和语言的顺序嵌入[212]，[249]。Vendrov等[212]提出的模型强制执行了一个不对称的不相似度量，实现了多模态空间中的偏序概念。其思想是捕获语言和图像表示的部分顺序——在空间上强制执行层次结构;例如“遛狗的女人”的形象→文本“遛狗的女人”→文本“女人走路”。Young等人[238]也提出了一个使用符号图的类似模型，其中符号图用于诱导部分排序。最后，Zhang等人提出了如何利用文本和图像的结构化表示以一种无监督的方式创建概念分类[249]。

结构协调空间的一个特殊情况是基于正则相关分析（CCA）的情况[84]。CCA计算一个线性投影，该投影最大化了两个随机变量(在我们的例子中是模态)之间的相关性，并强制新空间的正交性。CCA模型被广泛用于跨模态检索[76]，[106]，[169]和视听信号分析[177]，[187]。对CCA的扩展试图构造一个最大相关非线性投影[7][116]。核正则相关分析(Kernel canonical correlation analysis, KCCA)[116]使用复制核希尔伯特空间进行投影。但是，由于该方法是非参数的，因此它与训练集的大小之间的伸缩性很差，并且与非常大的实际数据集之间存在问题。引入了深正则相关分析（DCCA）[7]作为KCCA的替代方法，解决了可扩展性问题，并给出了更好的相关表示空间。类似的通信自动编码器[58]和深度通信RBMS[57]也被提议用于跨模式检索。

CCA、KCCA和DCCA是无监督的技术，只优化表示上的相关性，因此主要捕获跨模式共享的内容。深层规范相关的自动编码器[220]还包括一个基于自动编码器的数据重建术语。这促使表示也能捕获模态特定的信息。语义相关最大化方法[248]也鼓励语义相关性，同时保留相关最大化和由此产生的空间的正交性-这导致了CCA和跨模式散列技术的结合。

3.3讨论

在本节中，我们确定了两种主要的多模态表示形式——联合和协调。联合表示将多模态数据投射到一个公共空间中，最适合在推理过程中出现所有模态的情况。它们被广泛用于AVSR、情感和多模手势识别。另一方面，协调表示法将每个模态投影到一个单独但协调的空间中，使其适用于测试时只有一个模态的应用，例如：多模态检索和翻译（第4节）、接地（第7.2节）和零镜头学习（第7.2节）。最后，虽然联合表示用于构建两种以上模态的表示，但到目前为止，协调空间主要限于两种模态。

表3:多模态翻译研究的分类。对于每个类和子类，我们都包含了带有引用的示例任务。我们的分类还包括翻译的方向性:单向(⇒)和双向(⇔)。

4 翻译（以下部分翻译的较好）

多模机器学习的很大一部分涉及从一种形式到另一种形式的翻译（映射）。给定一个模态中的实体，任务是用不同的模态生成相同的实体。例如，给定一个图像，我们可能希望生成一个描述它的句子，或者给定一个文本描述，生成一个匹配它的图像。多模态翻译是一个长期研究的问题，在语音合成[88]、视觉语音生成[136]、视频描述[107]、跨模态检索[169]等领域都有早期的工作。

近年来，由于计算机视觉和自然语言处理(NLP)社区[19]的共同努力，以及大型多模态数据集[38]最近的可用性，多模态翻译重新引起了人们的兴趣[205]。一个特别受欢迎的问题是视觉场景描述，也称为图像[214]和视频字幕[213]，它是许多计算机视觉和NLP问题的一个很好的测试平台。要解决这一问题，我们不仅要充分理解视觉场景，识别其突出的部分，而且要在语法上正确、全面而简洁的描述它的句子。虽然多模态翻译的方法非常广泛，而且通常是模态特有的，但它们有许多共同的因素。我们将它们分为两类——基于实例的和生成的。基于实例的模型在模式之间转换时使用字典。

另一方面，生成模型构建了一个能够产生翻译的模型。这种区别类似于非参数和参数机器学习方法之间的区别，如图2所示，表3总结了代表性示例。

生成模型可能更具挑战性，因为它们需要生成信号或符号序列(例如句子)的能力。这对于任何形式来说都是困难的——视觉的、听觉的或口头的，尤其是当需要生成时间上和结构上一致的序列时。这导致了许多早期的多模态翻译系统依赖于基于实例的翻译。但是，随着能够生成图像[171]、[210]、声音[157]、[209]和文本[12]的深度学习模型的出现，这种情况一直在发生变化。

图2:基于实例和生成式多模态翻译概述。前者从字典中检索最佳翻译，而后者首先在字典上训练翻译模型，然后使用该模型进行翻译。

4.1基于实例

基于实例的算法受到训练数据字典的限制(见图2a)。我们确定了这类算法的两种类型:基于检索的算法和基于组合的算法。基于检索的模型直接使用检索到的转换，而不需要修改它，而基于组合的模型依赖于更复杂的规则来基于大量检索到的实例创建转换。

基于检索的模型可以说是多模态翻译的最简单形式。它们依赖于在字典中找到最接近的样本，并将其用作翻译结果。检索可以在单模态空间或中间语义空间进行。

给定要翻译的源模态实例，单模态检索在字典中查找源空间中最接近的实例——例如图像的视觉特征空间。这种方法已被用于视觉语音合成，检索最匹配的音素[26]的视觉示例。它们也被用于连接文本到语音系统[88]。最近，Ordonez等[155]利用单模态检索，利用全局图像特征检索标题候选，生成图像描述[155]。Yagcioglu等[232]利用一种基于cnn的图像表示方法，利用自适应邻域选择检索视觉上相似的图像。Devlin等人在[49]中证明了一个简单的k近邻检索方法与更复杂的生成方法相比，具有一致标题选择的k近邻检索方法能够获得具有竞争力的翻译结果。这种单模态检索方法的优点是，它们只需要表示我们所使用的单一模态进行检索。然而，它们通常需要额外的处理步骤，如重新排列检索到的译文[135]、[155]、[232]。这表明这种方法的一个主要问题——单模态空间的相似性并不总是意味着好的翻译。另一种方法是在检索过程中使用中间语义空间进行相似性比较。手工语义空间的一个早期示例是Farhadi等人使用的。它们将句子和图像映射到一个空间，这个空间包含了对象、动作、场景和相关检索，然后在该空间中执行图像的标题。Socher等[191]学习了句子的协调表示和CNN视觉特征(关于协调空间的描述，请参见3.2节)，这与手工制作表示不同。他们使用该模型既可以将文本转换为图像，也可以将图像转换为文本。类似地，Xu等[231]使用视频及其描述的协调空间进行跨模态检索。Jiang和Li[93]以及Cao等人[[32]]使用跨模态哈希(cross-modal hashing)来实现图像到句子和句子之间的多模态转换，Hodosh等人[83]使用多模态KCCA空间进行图像entence检索。Karpathy等人[99]提出了一种多模态相似度度量方法，可以在内部将图像片段(视觉对象)与句子片段对齐，而不是在公共空间中对图像和句子进行全局对齐(依赖关系树)。语义空间中的检索方法往往比单模态的检索方法表现得更好，因为它们是在一个更有意义的空间中检索示例，该空间反映了两种模式，而且通常是为检索而优化的。此外，它们允许双向翻译，这在单模态方法中不是很直观。然而，它们需要手工构建或学习这样的语义空间，这通常依赖于大型训练字典(成对样本的数据集)的存在。

基于组合的模型进一步采用了基于检索的方法。它们不只是从字典中检索示例，而是以一种有意义的方式将它们组合起来，以构建更好的翻译。基于组合的媒体描述方法的出发点是图像的句子描述具有共性和简单性可以利用的结构。组合规则通常是手工制定的或基于启发式的。Kuznetsova等[114]首先检索描述视觉上相似的图像的短语，然后将它们组合起来，使用整数线性规划和一些手工规则生成查询图像的新描述。Gupta等[74]首先找到k个与源图像最相似的图像，然后使用从其标题中提取的短语生成一个目标句子。Lebret等[119]使用基于cnn的图像表示来推断描述它的短语。然后使用三元模型将预测的短语组合起来。基于示例的翻译方法面临的一个大问题是，模型是整个词典——使得模型变大，推理变慢（不过，诸如散列之类的优化可以缓解这个问题）。基于实例的翻译面临的另一个问题是，除非任务简单或字典很大，否则期望与源示例相关的完整和准确的翻译总是存在于字典中是不现实的。这部分由能够构建更复杂结构的组合模型来解决。然而，它们只能在一个方向上执行翻译，而基于语义空间检索的模型可以同时执行这两种方式。

4.2生成方法

在给定单模源实例的情况下，多模翻译的生成方法构造了能够执行多模翻译的模型。这是一个具有挑战性的问题，因为它需要同时理解源模态和生成目标序列或信号的能力。正如下面一节所讨论的，由于可能的正确答案空间很大，这也使得这些方法更难评估。

在这项调查中，我们关注三种形式的产生：语言、视觉和声音。语言生成已经探索了很长一段时间[170]，最近很多人关注图像和视频描述等任务[19]。语音和声音的产生也经历了许多历史[88]和现代方法[157]，[209]。照片般逼真的图像生成一直没有被探索过，并且仍然处于早期阶段[132]，[171]，但是，在生成抽象场景[253]、计算机图形[45]和说话的头部[6]方面，已经进行了多次尝试。

我们确定了三大类生成模型：基于语法的、编码器-解码器和连续生成模型。基于语法的模型通过使用语法限制目标域来简化任务，例如，通过基于<subject,object,verb>模板生成受限制的句子。编码器-解码器模型首先将源模态编码为潜在的表示形式，然后由解码器使用该表示形式生成目标模态。连续生成模型是在源模态输入流的基础上连续生成目标模态适用于时间序列之间的转换，如文本到语音。

基于语法的模型依赖于预定义的语法来生成特定的模态。它们首先从源模式检测高级概念，例如图像中的对象和视频中的动作。然后将这些检测与基于预定义语法的生成过程结合在一起，生成目标模态。Kojima等[107]提出了一种利用检测到的人的头和手的位置以及基于规则的自然语言生成来描述视频中人类行为的系统，该系统融合了概念和行为的层次结构。Barbu et al.[14]提出了一种视频描述模型，该模型可以生成这种形式的句子:who did what to whom and where and how they did it。该系统基于手工制作的对象和事件分类器，并使用了适合任务的受限语法。Guadarrama等人[73]预测<subject,verb,object>三元组，使用语义层次描述视频，在不确定的情况下使用更通用的词。与语言模型一起，他们的方法允许翻译字典中看不到的动词和名词。

为了描述图像，Yao等[235]提出使用基于and或图形的模型，结合领域特定的词汇化语法规则、有针对性的视觉表示方案和层次知识本体。Li等[121]首先检测对象、视觉属性和对象之间的空间关系。然后在视觉提取的短语上使用n-gram语言模型生成<subject、preposition、object>样式的语句。Mitchell等人[142]使用了更复杂的基于树的语言模型生成语法树而不是填充模板，从而导致更多样化的描述。

大多数方法都将整个图像联合起来表示为一袋视觉对象，而不捕获它们的空间和语义关系。为了解决这个问题，Elliott等人[51]建议显式建模对象的邻近关系，以生成图像描述。

一些基于语法的方法依赖于图形模型来生成目标模态。一个例子是BabyTalk[112]，它给出了一个图像生成<object, preposition, object>三元组，和一个条件随机字段一起使用来构造句子。Yang等[233]利用从图像中提取的视觉特征预测一组<名、动词、场景、介词>候选词，并用统计语言模型和隐马尔可夫模型风格推理将其组合成一个句子。Thomason等[204]也提出了类似的方法，利用因子图模型对形式<subject、verb、object、place>进行视频描述。因子模型利用语言统计信息处理噪声的视觉表示。Zitnick等[253]则提出利用条件随机域从句子中提取的语言三联来生成抽象的视觉场景。

基于语法的方法的一个优点是，当它们使用预定义模板和受限制的语法时，它们更有可能生成语法上(对于语言)或逻辑上正确的目标实例。然而，这限制了他们产生公式化，而不是创造性翻译。此外，基于语法的方法依赖于复杂的管道进行概念检测，每个概念都需要单独的模型和单独的训练数据集。

基于端到端训练神经网络的编码器-解码器模型是目前最流行的多模态翻译技术之一。该模型的主要思想是首先将源模态编码为矢量表示，然后使用解码器模块生成目标模态，所有这些都在一个单通道管道中。虽然该模型首次用于机器翻译[97]，但已成功用于图像字幕[134]、[214]和视频描述[174]、[213]。迄今为止，编码器模型主要用于生成文本，但也可用于生成图像[132]、[171]和语音连续生成[157]、[209]。

编码器-解码器模型的第一步是对源对象进行编码，这是以特定的方式完成的。常用的声学信号编码模型包括RNNs[35]和DBNs[79]。对单词和句子进行编码的大部分工作使用分布语义[141]和RNNs[12]的变体。图像通常使用卷积神经网络（CNN）进行编码[109]，[185]。虽然学习CNN表示是常见的图像编码，但这不是视频的情况，手工制作的功能仍然普遍使用[174]，[204]。虽然可以使用单模态表示对源模态进行编码，但已经证明使用协调空间(参见3.2节)可以获得更好的结果[105]、[159]和[231]。

解码通常由RNN或LSTM执行，使用编码的表示作为初始隐藏状态[54]，[132]，[214]，[215]。对传统的LSTM模型提出了一些扩展，以帮助完成翻译任务。可以使用导向量将图像输入中的解紧密耦合[91]。Venugopalan等[213]证明，在将解码器LSTM微调为视频描述之前，对其进行图像字幕预处理是有益的。Rohrbach等[174]探讨了用于视频描述任务的各种LSTM架构(单层、多层、分解)和一些训练和正则化技术的使用。

使用RNN进行翻译生成所面临的一个问题是，模型必须从图像、句子或视频的单个矢量表示生成描述。在生成长序列时，这一点尤其困难，因为这些模型往往会忘记初始输入。神经注意模型(见5.2节)部分解决了这一问题，它允许网络在生成过程中聚焦于图像[230]、句子[12]或视频[236]的某些部分。

基于生成注意的神经网络也被用于从句子中生成图像的任务[132]，尽管其结果仍远未达到照片真实感，但显示出了很大的前景。近年来，利用生成对抗性网络生成图像的研究取得了很大进展[71]，该网络已被用于替代RNNs从文本生成图像[171]。

虽然基于神经网络的编码器-解码器系统已经取得了很大的成功，但仍然面临许多问题。Devlin等人[49]认为，网络可能是在记忆训练数据，而不是学习如何理解和生成视觉场景。

这是基于K-最近邻模型与基于生成的模型的性能非常相似的观察结果。此外，此类模型通常需要大量数据进行培训。连续生成模型用于序列转换，并以在线方式在每个时间步上生成输出。这些模型在将序列转换为序列(如文本到语音、语音到文本和视频到文本)时非常有用。已经为此类建模提出了许多不同的技术——图形模型、连续编码器-解码器方法以及各种其他回归或分类技术。这些模型需要解决的额外困难是模式之间的时间一致性要求。

许多早期的序列到序列翻译工作使用图形或潜在变量模型。Deena和Galata[47]提出使用共享高斯过程潜在变量模型进行基于音频的视觉语音合成。该模型在音频和视频特征之间创建了一个共享的潜在空间，可用于从另一个特征生成一个空间，同时在不同的时间点增强视觉语音的时间一致性。

隐马尔可夫模型（HMM）也被用于视觉语音生成[203]和文本语音转换[245]任务。它们还被扩展到使用集群自适应训练，以允许对多个扬声器、语言和情感进行训练，从而在生成语音信号[244]或视觉语音参数[6]时实现更大的控制。

编码器-解码器模型最近已成为序列到序列建模的流行模式。欧文斯等人。[157]使用LSTM根据视频生成鸡腿的声音。虽然他们的模型能够通过预测CNN视频特征中的耳蜗图来产生声音，但他们发现，根据预测的耳蜗图检索最近的音频样本可以获得最佳结果。van den Oord等人提出了直接模拟语音和音乐生成的原始音频信号。〔209〕。作者建议使用层次结构的全卷积神经网络，这表明在语音合成任务上，它比以前的先进技术有了很大的改进。RNN也被用于语音到文本翻译（语音识别）[72]。最近，基于编码器-解码器的连续方法被证明能够很好地预测语音信号中的字母，该语音信号表示为滤波器组光谱[35]——允许更准确地识别稀有和词汇外的单词。Collobert等人[42]演示如何直接使用原始音频信号进行语音识别，无需音频功能。许多早期的工作使用图形模型来进行连续信号之间的多模态转换。然而，这些方法正被基于神经网络的编码器-解码器技术所取代。特别是它们最近被证明能够表示和产生复杂的视觉和声学信号。

4.3模型评价与讨论

多模态翻译方法面临的一个主要挑战是很难对其进行评价。虽然语音识别等任务只有一个正确的翻译，但语音合成和媒体描述等任务没有。有时，就像在语言翻译中一样，多个答案都是正确的，决定哪个翻译更好往往是主观的。幸运的是，在模型评估中有许多近似的自动度量。

通常，评价主观任务的理想方法是通过人的判断。那就是让一组人评估每一个翻译。这可以在Likert量表上进行，在该量表中，每个翻译都在一定的维度上进行评估：语音合成的自然度和平均意见分数[209]、[244]、视觉语音合成的现实性[6]、[203]以及媒体描述的语法和语义正确性、相关性、顺序和细节[38]、[112]、[142]、[213]。另一种选择是进行偏好研究，即向参与者提供两个(或多个)翻译以进行偏好比较[203]，[244]。然而，虽然用户研究的结果将得出最接近人类判断的评价，但它们是费时和昂贵的。此外，在构建和引导它们时需要小心，以避免流畅性、年龄、性别和文化偏见。

虽然人类研究是评估的黄金标准，但已经为媒体描述的任务提出了许多自动替代方案：BLUE [160]、ROUGE [124]、Meteor [48]和CIDEr[ 211]。这些指标直接取自(或基于)机器翻译中的工作，并计算出度量两者之间相似性的得分生成的和基本的真实文本。

然而，它们的使用却面临着许多批评。Elliott和Keller[52]表明，句子水平的单格BLeu与人类判断的相关性很弱。Huang等人[87]证明人类判断与布鲁和流星之间的相关性对于视觉故事讲述任务来说非常低。此外，基于人类判断的方法排序与在MS Coco挑战[38]中使用自动度量的排序不匹配，因为在所有度量上，有大量算法优于人类。最后，只有在大量参考翻译很高的情况下，这些指标才能很好地工作[211]，这通常是不可用的，尤其是对于当前的视频描述数据集[205]。

这些批评导致Hodosh等人[83]提出使用检索作为图像字幕评价的代理，他们认为这更好地反映了人类的判断。基于检索的系统不是生成标题，而是根据标题与图像的匹配程度对可用标题进行排序，然后通过评估正确的标题是否具有较高的排名来进行评估。由于许多标题生成模型具有生成性，因此它们可以直接用于评估给定图像的标题的可能性，而且图像标题社区正在对这些模型进行调整[99]，[105]。视频字幕社区也采用了这种基于检索的评价指标[175]。

视觉问答(Visual question-answer, VQA)[130]任务的提出部分是由于图像字幕评价面临的问题。VQA是一项任务，其中给定一个映像和一个关于其内容的问题，系统必须回答它。由于有了正确的答案，评估这样的系统就更容易了。然而，它仍然面临着某些问题和答案的模糊性和问题倾向性等问题。

我们认为，解决评价问题对多式翻译系统的进一步成功至关重要。这样不仅可以更好地比较各种方法，而且可以优化更好的目标。

5 对齐

我们将多模态对齐定义为从两个或多个模态中查找实例子组件之间的关系和对应。例如，给定一幅图像和一个标题，我们希望找到与标题的单词或短语对应的图像区域[98]。另一个例子是，给定一部电影，将其与剧本或书中它所基于的章节进行比对[252]。

我们将多模态对齐分为隐式对齐和显式对齐两种类型。在显式对齐中，我们显式地对在模式之间对齐子组件感兴趣，例如，使用相应的教学视频对齐菜谱步骤[131]。隐式对齐用作另一个任务的中间(通常是隐藏)步骤，例如，基于文本描述的图像检索可以包括单词和图像区域之间的对齐步骤[99]。这些方法的概述见表4，并在以下章节中进行了更详细的介绍。

表4：多模式对齐挑战的分类汇总。对于分类法的每个子类，我们都包含参考引文和对齐的模式

5.1显式对齐

如果论文的主要建模目标是来自两个或多个模式的实例子组件之间的对齐，那么我们将其归类为执行显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于以不同模式度量子组件之间的相似性作为基本构建块。这些相似性可以手动定义，也可以从数据中学习。

我们确定了两种处理显式对齐的算法——无监督算法和(弱)监督算法。第一种类型不使用直接对齐标签(即来自不同模式的实例之间的通信。第二种类型可以访问这些(有时是弱)标签。

无监督的多模式校准解决了模式校准而无需任何直接校准标签。大多数方法都是从早期的统计机器翻译校准工作[28]和基因组序列[3]，[111]中得到启发的。为了使任务更简单，这些方法假定了对对齐的某些约束，例如序列的时间顺序或模式之间存在相似性度量。

Dynamic time warping (DTW) [3]，[111]是一种被广泛用于多视图时间序列对齐的动态规划方法。DTW测量两个序列之间的相似性，并通过时间扭曲(插入帧)找到它们之间的最优匹配。它要求两个序列中的时间步骤具有可比性，并要求它们之间的相似性度量。DTW可以通过手工绘制模态之间的相似性度量直接用于多模态校准；例如Anguera等人[8]在字形和音素之间使用手工定义的相似性；以及Tapaswi等人[201]根据相同字符的外观定义视觉场景和句子之间的相似性[201]以对齐电视节目和情节概要。类似DTW的动态编程方法也被用于文本到语音[77]和视频[202]的多模式对齐。由于原始的DTW公式需要预先定义模态之间的相似性度量，因此使用正则相关分析(canonical correlation analysis, CCA)对其进行扩展，将模态映射到一个协调空间。这允许(通过DTW)对齐和(通过CCA)在不同的模态流之间以无监督的方式联合学习映射[180]、[250]、[251]。基于CCA的DTW模型能够找到线性变换下的多模态数据对齐，但不能建立非线性关系的模型。深度规范时间翘曲方法[206]已经解决了这一问题，它可以看作是深度CCA和DTW的一种推广。

各种图形模型也已流行于无监督的多模序列排列。Yu和Ballard的早期作品[239]使用生成图形模型将图像中的视觉对象与口语对齐。库尔等人[44]也采用了类似的方法，将电影快照和场景与相应的剧本对齐。Malmaud等。[131]使用系数化的hmm将食谱与烹饪视频对齐，而noulas等人[154]使用动态贝叶斯网络将扬声器与视频对齐。Naim等人。[147]使用分层HMM模型将句子与帧对齐，并使用改进的IBM[28]算法对单词和对象进行对齐，从而将句子与相应的视频帧进行匹配[15]。然后将该模型扩展到使用潜条件随机字段进行对齐[146]，并将动词对齐与名词和对象之外的动作结合起来[195]。

用于对齐的DTW和图形模型方法都允许对对齐进行限制，例如时间一致性、时间无大跳跃和单调性。虽然DTW扩展允许共同学习相似性度量和对齐，但基于图形模型的方法需要专家知识来构造[44]，[239]。

监督对齐方法依赖于标记对齐的实例。它们用于训练用于对齐模式的相似性度量。

许多有监督序列对齐技术都是从无监督序列对齐技术中获得灵感的。Bojanowski等人[22]，[23]提出了一种类似于canonical time warping的方法，但也将其扩展到利用现有(弱)监督对齐数据进行模型训练。Plummer等[161]利用CCA在图像区域和短语之间寻找一个协调的空间进行对齐。Gebru等[65]对高斯混合模型进行训练，将半监督聚类与无监督的隐变量图形模型进行聚类，将音频信道中的扬声器与视频中的位置进行对齐。Kong等[108]训练了马尔可夫随机场将三维场景中的对象与文本描述中的名词和代词进行对齐。

基于深度学习的方法越来越流行于显式对齐(特别是用于度量相似性)，这是因为最近在语言和视觉社区中出现了对齐的数据集[133]和[161]。Zhu等。[252]通过培训CNN来测量场景和文本之间的相似性，使书籍与相应的电影/剧本保持一致。毛等人。[133]使用LSTM语言模型和CNN视觉模型来评估引用表达式和图像中对象之间匹配的质量。Yu等人[242]将该模型扩展到包括相对外观以及上下文信息，以便更好地消除同一类型对象之间的歧义。最后，Hu等人[85]使用基于LSTM的评分函数查找图像区域及其描述之间的相似性。

5.2隐对齐

与显式对齐相反，隐式对齐用作另一个任务的中间(通常是隐藏)步骤。这使得在许多任务中，包括语音识别、机器翻译、媒体描述和视觉问答，可以获得更好的性能。这类模型不显式地对齐数据，也不依赖于监督对齐示例，而是学习如何在模型培训期间对数据进行隐式对齐。我们确定了两种类型的隐式对齐模型:早期基于图形模型的工作和更现代的神经网络方法。

图形模型已经看到了一些早期的工作，用于更好地对齐机器翻译语言之间的单词[216]和语音音素与其转录的对齐[186]。但是，它们需要手动构造模式之间的映射，例如，将电话映射到声学特性的生成电话模型[186]。构建这样的模型需要培训数据或人类专业知识来手动定义它们。

神经网络转换(第4节)是一个建模任务的例子，如果将对齐作为潜在的中间步骤执行，那么该任务通常可以得到改进。如前所述，神经网络是解决这一翻译问题的常用方法，可以使用编码器-解码器模型，也可以通过跨模态检索。当翻译在没有隐式对齐的情况下执行时，它最终会给编码器模块带来很大的负担，使其能够使用单个矢量表示正确地总结整个图像、句子或视频。

解决这一问题的一种非常流行的方法是通过关注[12]，它允许解码器将焦点放在源实例的子组件上。这与在传统编码器-解码器模型中将所有源子组件一起编码形成对比。注意模块将告诉解码器看起来更有针对性的子组件的源代码翻译领域的一个图像[230],单词句子的[12],段音频序列[35],[39],一个视频帧和地区[236],[241],甚至部分指令[140]。例如，在图像字幕而不是使用CNN对整个图像进行编码时，注意力机制将允许解码器（通常是RNN）在生成每个连续单词时聚焦图像的特定部分[230]。注意力模块，它学习图像的哪个部分要聚焦，通常是一个浅层的神经网络，与目标任务（如翻译）一起进行端到端的训练。

注意力模型也被成功地应用于答题任务中，因为它允许将问题中的单词与信息源的子组件(如文本[228]、图像[62]或视频序列[246])进行对齐。这既可以在回答问题时提供更好的性能，也可以带来更好的模型可解释性[4]。尤其是不同类型的注意力模型其中包括分层[128]、层叠[234]和情景记忆注意[228]。

Karpathy等人提出了另一种将图像与标题对齐以进行跨模式检索的神经替代方法。〔98〕，〔99〕。他们提出的模型使用图像区域和词表示之间的点积相似度度量将句子片段与图像区域对齐，虽然它不使用注意，但通过训练检索模型间接学习的相似度度量，提取出形式之间潜在的对齐。

5.3讨论

多模态对齐面临许多困难:1)具有显式标注对齐的数据集较少;2)两种模式之间的相似度指标难以设计;3)可能存在多种可能的对齐方式，一种模式中的元素不一定在另一种模式中都有对应关系。早期关于多模对准的工作主要集中在以无监督的方式使用图形模型和动态编程技术。

它依赖于手工定义的模式之间相似性的度量，或者在无监督的情况下学习它们。随着最近标签训练数据的可用性，监督学习模式之间的相似性已经成为可能。然而，无监督的技术学习联合起来对齐、转换或融合数据也变得流行起来。

6 融合

多模态融合是多模态机器学习中最早提出的课题之一，以往的研究主要侧重于早期、晚期和混合融合方法[50][247]。在技术术语中，多模态融合是将来自多种模态的信息集成在一起，并以预测结果为目标的概念:通过分类来预测一个类别(例如，快乐vs.悲伤)，或者通过回归来预测一个连续值(例如，情绪的积极性)。这是25年前工作的多模态机器学习中研究最多的方面之一[243]。

对多模态融合的兴趣来自于它能提供的三个主要好处。首先，能够访问观察同一现象的多种模式，可能会使预测更加可靠。

AVSR社区尤其探索和利用了这一点[163]。其次，能够访问多种模式可能允许我们捕获互补的信息——一些在单独的模式中不可见的信息。第三，当其中一种模态缺失时，多模态系统仍然可以运行，例如，当一个人不讲[50]时，从视觉信号中识别情绪。

多模态融合有着非常广泛的应用，包括视听语音识别(AVSR)[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]。关于这个主题有很多评论[11]、[163]、[188]，〔247〕。它们中的大多数集中在针对特定任务的多模式融合上，例如多媒体分析、信息检索或情感识别。相反，我们专注于机器学习方法本身以及与这些方法相关的技术挑战。

虽然之前的一些研究使用多模态融合这一术语来包含所有的多模态算法，但在本文的研究中，我们将在预测后期进行多模态融合的方法归为融合类，目的是预测结果度量。在最近的工作中，多模态表示和融合之间的界限已经变得模糊，例如深度神经网络，其中表示学习与分类或回归目标交织在一起。正如我们将在本节中描述的那样，这条线对于其他方法(如图形模型和基于内核的方法)更加清晰。

我们将多模态融合分为两大类:不直接依赖于特定机器学习方法的模型不可知方法(第6.1节);以及在构建中显式处理融合的基于模型的方法(第6.2节)，例如基于内核的方法

方法，图形模型和神经网络。这些方法的概述见表5。

表5:多模态融合方法的分类总结。输出类型(类-分类或reg -回归)、临时-是时间建模的可能。

6.1模型不可知论方法

历史上，绝大多数多模融合都是用模型不可知论方法完成的[50]。这种方法可以分为早期（即基于特征）、晚期（即基于决策）和混合融合[11]。早期融合在提取特征后立即集成特征（通常只需将其表示连接起来）。另一方面，后期融合在每种模式做出决定（例如分类或回归）后执行集成。最后，混合融合结合了早期融合的输出和单个单模态预测因子。模型不可知方法的一个优点是，它们几乎可以使用任何单模态分类器或回归器来实现。

早期融合可以看作是多模态研究人员进行多模态表示学习的初步尝试，因为它可以学习利用每种模态的低层特征之间的相关性和相互作用。此外，它只需要单个模型的训练，这使得训练管道比后期和混合融合更容易。

相比之下，延迟融合使用单模态决策值，并使用平均[181]、投票方案[144]、基于信道噪声[163]和信号方差[53]的加权等融合机制将其融合，或者使用学习模型[68]、[168]。它允许对每个模态使用不同的模型，因为不同的预测器可以更好地为每个单独的模态建模，从而提供更多的灵活性。此外，当13种模式中的一种或多种缺失时，可以更容易地进行预测，甚至可以在没有并行数据可用时进行培训。然而，晚期融合忽略了模式之间的低水平相互作用。

混合融合试图在公共框架中利用上述两种方法的优点。它已成功地用于多模态扬声器识别[226]和多媒体事件检测(MED)[117]。

6.2基于模型的方法

虽然使用单模态机器学习方法很容易实现模型不可知的方法，但是它们最终使用的技术不是设计用来处理多模态数据的。在本节中，我们将描述用于执行多模态融合的三种方法:基于内核的方法、图形模型和神经网络。

多核学习(multi kernel learning, MKL)方法是对内核支持向量机(kernel support vector machines, SVM)的扩展，它允许对数据的不同模式/视图使用不同的内核[70]。由于内核可以看作是数据点之间的相似函数，MKL中特定于模式的内核可以更好地融合异构数据。

MKL方法是一种特别流行的融合视觉描述符用于对象检测[31]的方法[66]，直到最近才被用于任务的深度学习方法所取代[109]。它们也被用于多模态情感识别[36]，[90]，[182]，多模态情绪分析[162]和多媒体事件检测(MED)[237]。此外，McFee和Lanckriet[137]提出使用MKL从声学、语义和社会视角数据对音乐艺术家进行相似性排序。最后，Liu等[125]在阿尔茨海默病分类中使用MKL进行多模态融合。它们的广泛适用性证明了这些方法在不同领域和不同模式中的优势。

除了内核选择的灵活性之外，MKL的优点是损失函数是凸函数，允许使用标准优化包和全局最优解进行模型训练[70]。此外，mkl可以用于执行回归和分类。mkl的一个主要缺点是在测试期间依赖于训练数据（支持向量），从而导致推理缓慢和内存占用大。

图形模型是多模态融合的另一种常用方法。在本节中，我们概述了使用浅层图形模型进行多模态融合的工作。深度图形模型的描述，如深度信念网络，可以在3.1节中找到。大多数图形模型可分为两大类：生成-建模联合概率；或判别-建模条件概率[200]。最早使用图形模型进行多模态融合的方法包括生成模型，如耦合[149]和阶乘隐马尔可夫模型[67]以及动态贝叶斯网络[64]。最近提出的多流HMM方法提出了AVSR模式的动态加权[75]。

可论证的是，生成模型的受欢迎程度不如条件随机场(CRF)等判别模型[115]，条件随机场牺牲了联合概率的建模来获得预测能力。CRF模型通过结合图像描述的视觉和文本信息来更好地分割图像[60]。CRF模型已经扩展到使用隐藏的条件随机字段来模拟潜在状态[165]，并已应用于多模态会议分割[173]。潜在变量判别图形模型的其他多模态应用包括多视图隐藏CRF[194]和潜在变量模型[193]。最近Jiang等[93]展示了多模态隐藏条件随机域在多媒体分类任务中的优势。虽然大多数的图形模型都是以分类为目的的，但CRF模型已经扩展到连续版本进行回归[164]，并应用于多模态设置[13]进行声像情感识别。

图形化模型的优点是能够方便地利用数据的空间和时间结构，使其在时间建模任务(如AVSR和多模态影响识别)中特别受欢迎。它们还允许将人类的专家知识构建到模型中。并经常导致可解释的模型。

神经网络在多模态融合中得到了广泛的应用[151]。使用神经网络进行多模态融合的最早例子来自AVSR的研究[163]。

如今，它们被用来融合信息，用于视觉和媒体的问答[63]、[130]、[229]、手势识别[150]、情感分析[96]、[153]和视频描述生成[94]。虽然使用的模式、架构和优化技术可能有所不同，但在神经网络的联合隐藏层中融合信息的总体思想是相同的。

神经网络也被用于融合时间多模态信息通过使用RNNs和LSTMs。较早的此类应用之一是使用双向LSTM进行视听情绪分类[224]。最近，Wollmer等人[223]使用–lstm模型进行连续多模态情绪识别，显示了其优于图形模型和SVM。同样，Nicolaou等人[152]使用LSTMS进行持续情绪预测。他们提出的方法使用一个lstm来融合模态特定（音频和面部表情）lstms的结果。接近形态融合通过递归神经网络被用于各种图像字幕任务,例如模型包括:神经图像字幕[214],CNN是使用一种LSTM语言解码图像表示模型,gLSTM[91]包含了图像数据的句子一起解码在每一个时间步融合视觉和句子中的数据联合表示。最近的一个例子是Rajagopalan等人提出的多视图LSTM (mvc -LSTM)模型[166]。MV-LSTM模型通过显式地建模特定于模态和跨模态的交互，允许灵活地融合LSTM框架中的模态。深度神经网络方法在数据融合方面的一大优势是能够从大量数据中学习。其次，最近的神经结构允许对多模态表示组件和融合组件进行端到端训练。最后，与基于非神经网络的系统相比，它们表现出了良好的性能，并且能够学习其他方法所面临的复杂决策边界。

神经网络方法的主要缺点是缺乏可解释性。很难判断这种预测依赖于什么，以及哪种模式或特征起着重要作用。此外，神经网络需要大的训练数据集才能成功。

6.3讨论

多模态融合是一个被广泛研究的课题，提出了许多方法来解决它，包括模型不可知方法、图形模型、多核学习和各种类型的神经网络。每种方法都有自己的优点和缺点，有些方法更适合于较小的数据集，有些方法在嘈杂的环境中性能更好。

最近，神经网络已经成为处理多模态融合的一种非常流行的方法，然而图形模型和多核学习仍在使用，特别是在训练数据有限或模型可解释性很重要的任务中。

尽管取得了这些进展，多模态融合仍然面临以下挑战:1)信号可能不是时间对齐的(可能是密集连续信号和稀疏事件);2)难以建立利用补充信息而不仅仅是补充信息的模型;3)每种模态可能在不同的时间点表现出不同的类型和不同程度的噪声。

7 协同学习

分类法中的最后一个多模态挑战是协同学习——通过从另一个(资源丰富的)模态中获取知识来帮助(资源贫乏的)模态建模。当其中一种模式的资源有限时(缺少带注释的数据、有噪声的输入和不可靠的标签)，它尤其重要。我们称这种挑战为共同学习，因为大多数情况下，辅助模式只在模型训练中使用，在测试期间不使用。我们根据培训资源确定了三种类型的共同学习方法:并行、非并行和混合。并行数据方法需要训练数据集，其中来自一种模式的观察直接链接到来自其他模式的观察。换句话说，当多模态观测来自相同的实例时，例如在视听语音数据集中，其中的视频和演讲样本来自同一个演讲者。相反，非并行数据方法不需要在不同模式的观测之间建立直接联系。这些方法通常通过在类别上使用重叠来实现共同学习。例如，在零镜头学习中，传统的视觉对象识别数据集通过维基百科的第二个纯文本数据集进行扩展，以提高视觉对象识别的通用性。在混合数据设置中，模式通过共享模式或数据集进行桥接。共同学习方法的概述可以是

见表6，数据并行性总结见图3。

图3:用于共同学习的数据并行性类型:并行模式来自相同的数据集，实例之间存在直接对应关系;非并行模式来自不同的数据集，没有重叠的实例，但在一般类别或概念上有重叠;混合——实例或概念通过第三种模式或数据集进行桥接。

7.1平行数据

在并行数据共同学习中，两种模式共享一组实例——带有相应视频、图像及其句子描述的音频记录。这允许两种算法利用这些数据来更好地建模模式:联合训练和表示学习。

协同训练是在多模态问题[21]中只有少量的标记样本时，生成更多标记样本的过程。基本算法在每个模态中构建弱分类器，以便为未标记的数据彼此引导标签。研究表明，在Blum和Mitchell的开创性工作[21]中，人们发现了更多基于网页本身和超链接的网页分类培训样本。根据定义，该任务需要并行数据，因为它依赖于多模态样本的重叠。

联合训练已用于统计分析[178]以构建更好的视觉检测器[120]和视听语音识别[40]。它还可以通过过滤不可靠的样本[41]来处理两种模式之间的不一致。虽然联合训练是一种生成更多标记数据的强大方法，但它也会导致训练样本偏置，导致过拟合。转移学习是利用并行数据协同学习的另一种方法。多模表示学习（第3.1节）方法，如多模深Boltzmann机器[198]和多模自动编码器[151]将信息从一种形式的表示转移到另一种形式的表示。这不仅会导致多模态表示，而且会导致更好的单模态表示，在测试期间只使用一种模态[151]。Moon等[143]展示了如何将信息从语音识别神经网络(基于音频)传输到唇读神经网络(基于图像)，从而获得更好的视觉表征，并建立了一个在测试期间无需音频信息即可进行唇读的模型。同样，Arora和Livescu[10]利用CCA在声学和发音(嘴唇、舌头和下巴的位置)数据上构建了更好的声学特征。他们只在CCA构建期间使用发音数据，在测试期间只使用产生的声学(单模态)表示。

7.2非并行数据

依赖于非并行数据的方法不需要模式具有共享实例，而只需要共享类别或概念。非并行协同学习方法在学习表示时可以提供帮助，允许更好地理解语义概念，甚至可以执行不可见的对象识别。

迁移学习也可以在非并行数据上进行，并允许通过将信息从使用数据丰富或干净的模式构建的表示传输到数据稀缺或嘈杂的模式来学习更好的表示。这种类型的传输学习通常是通过使用协调的多模态表示来实现的（见第3.2节）。例如，Frome等人[61]通过将CNN视觉特征与在单独大数据集上训练的Word2vec文本特征相协调，使用文本改善图像分类的视觉表示[141]。以这种方式训练出来的视觉表现形式会导致更有意义的错误——将物体误认为同类物体[61]。Mahasseni和Todorovic[129]演示了如何使用基于3D骨骼数据的LSTM自动编码器，通过增强其隐藏状态之间的相似性，来规范基于LSTM的彩色视频。这种方法能够改进原始的LSTM，并在动作识别中实现最先进的性能。

概念基础是指学习语义意义或概念，不仅仅是基于语言，还包括视觉、听觉、甚至是嗅觉[16]等附加形式。虽然大多数概念学习方法都是纯语言为基础的，但人类对意义的表征不仅是我们语言暴露的产物，而且也是通过我们的感觉运动经验和感知系统[17]而建立起来的[126]。人类的语义知识在很大程度上依赖于感知信息[126]，许多概念是建立在感知系统的基础上的，并非纯粹的符号[17]。这意味着单纯从文本信息中学习语义意义可能不是最优的，并会激发使用视觉或听觉线索来为我们的语言表征奠定基础。

从工作由冯和Lapata[59],接地通常是由之间找到一个共同的潜在空间表征[59],[183](并行数据集的情况下)或通过学习单峰表示分开,然后导致一个多通道连接[29],[101],[172],[181](对于非并行数据)。一旦构建了多模态表示，它就可以用于纯语言任务。Shutova et al.[181]和Bruni et al.[29]使用扎根表征对隐喻和字面语言进行了更好的分类。这种表示法也有助于衡量概念上的相似性和关联性——确定两个词在语义上或概念上是如何相关的[30]、[101]、[183]或行为[172]。此外，概念不仅可以使用视觉信号，还可以使用声学信号，这使得概念在与听觉相关的单词上有更好的表现[103]，对于与嗅觉相关的单词甚至可以使用嗅觉信号[102]。最后，多模对齐和概念性接地之间有很多重叠，因为将视觉场景与其描述对齐会导致更好的文本或视觉表示[108]、[161]、[172]、[240]。

概念基础已被发现是一种有效的方法，以提高性能的一些任务。它还表明，语言和视觉(或音频)是互补的信息源，将它们组合在多模态模型中通常可以提高性能。但是，必须小心，因为接地并不总是能带来更好的性能[102]，[103]，并且只有当接地与任务相关时才有意义-例如，使用图像进行接地以获得视觉相关概念。

零距离学习(Zero shot learning, ZSL)指在没有明确看到任何例子的情况下识别概念。例如，在没有见过(标记的)猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题，例如在许多任务中，如可视化对象分类：为每一个感兴趣的可想象对象提供培训示例是非常昂贵的。

ZSL主要有两种类型——单模态和多模态。单模态ZSL查看对象的组成部分或属性，如用于识别未听过的单词的音素，或用于预测未见的可视类[55]的视觉属性，如颜色、大小和形状。多模zsl通过第二模态的帮助识别主模态中的对象——在第二模态中，对象已经被看到。根据定义，zsl的多模式版本是一个面临非并行数据的问题，因为所见类的重叠在模式之间是不同的。Socher等[190]将图像特征映射到概念词空间，能够对可见和不可见的概念进行分类。然后，看不见的概念可以分配给一个接近视觉表示的单词——这是通过在一个单独的数据集上训练语义空间来实现的，该数据集看到了更多的概念。而不是学习从视觉到概念空间的映射，Frome等[61]学习概念之间的协调多模态表示以及支持ZSL的图像。Palatucci等人[158]根据功能磁共振图像对人们正在思考的单词进行预测，他们展示了如何通过中间语义空间预测看不见的单词。Lazaridou等人[118]提出了一种通过神经网络将提取的视觉特征向量映射到基于文本的向量的快速映射方法。

7.3混合数据

在混合数据设置中，两个非并行模式由共享模式或数据集桥接（见图3c）。最值得注意的例子是桥接相关神经网络[167]，它使用一个中心模态来学习存在非并行数据的协调多模态表示。例如，在多语言图像标题的情况下，图像模式在任何语言中总是与至少一个标题配对。这些方法也被用来连接那些可能没有并行语料库但可以访问共享的枢轴语言的语言，例如机器翻译[148]、[167]和文档音译[100]。

有些方法不使用单独的模式进行桥接，而是依赖于来自类似或相关任务的大型数据集的存在，从而在仅包含有限注释数据的任务中获得更好的性能。Socher和Fei-Fei[189]利用大文本语料库的存在来指导图像分割。而Hendricks等[78]采用单独训练的视觉模型和语言模型，可以得到更好的图像和视频描述系统，但数据有限。

7.4讨论

多模态联合学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。需要注意的是，联合学习是独立于任务的，可以用于创建更好的融合、转换和对齐模型。以协同训练、多模态表示学习、概念基础和零镜头学习(zero shot learning, ZSL)等算法为例，在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到了广泛的应用。

8 总结

作为综述的一部分，我们介绍了多模式机器学习的分类法：表示、翻译、融合、对齐和共同学习。其中一些，如融合，已经研究了很长时间，但最近对表示和翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。我们相信，我们的分类法将有助于编目未来的研究论文，并更好地理解多模机器学习所面临的遗留问题。

@琪瑞

本文版权归《琪瑞》，转载请自行联系。

发表评论 取消回复

发表评论取消回复