文献阅读-Deep multi-view learning methods: A review

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

文献阅读-Deep multi-view learning methods: A review

Abstract
1-Introduction
- 1.1 Comparison with Previous Reviews
2 Multi-view Learning Methods in The Deep Learning Scope

本文主要解释 -深度学习范围内的MVL-方法并讨论 多视图与多模态 之间的关系。

Abstract

多视图学习 (MVL) 吸引了越来越多的关注并通过利用多种特征或模态的互补信息取得了巨大的实际成功。最近由于深度模型的卓越性能深度 MVL 已在机器学习、人工智能和计算机视觉等许多领域得到采用。本文从以下两个角度全面回顾了深度 MVL深度学习范围内的 MVL 方法和传统方法的深度 MVL 扩展。具体来说我们首先回顾了深度学习范围内具有代表性的 MVL 方法例如多视图自动编码器、传统神经网络和深度简短网络。

然后我们研究了当传统学习方法遇到深度学习模型时 MVL 机制的进步例如深度多视图典型相关分析、矩阵分解和信息瓶颈。此外我们还总结了深度 MVL 领域的主要应用、广泛使用的数据集和性能比较。最后我们试图确定一些开放的挑战为未来的研究方向提供信息

1-Introduction

近几十年来多视图数据已成为互联网上的主要数据类型之一其数量在视频监控[1-3]、娱乐媒体[4-6]、社交网络[7]和医学检测[8,9]等。基本上多视图数据是指从不同模态、来源、空间和其他形式捕获的数据但具有相似的高级语义。如图1所示一个对象可以用文本、视频、音频的形式来描述通常用不同的语言报告一个事件一个产品可以用多个图表示一个逼真的图像可以用不同的视觉特征来描述社交图像包含视觉信息和用户标签不同的相机可以从不同的角度捕捉特定的人类动作。尽管这些视图通常代表同一数据的不同且互补的信息但由于多个视图之间的偏差将它们直接集成在一起并不能获得始终如一的令人满意的性能。因此如何正确整合多个视图是一个中心问题这也是多视图学习的目标。

多视图学习 (MVL) 旨在通过组合多个不同的特征或数据源来学习共同的特征空间或共享模式 [10]。在过去的几十年中MVL 在机器学习和计算机视觉社区 [11-15] 中获得了巨大的发展势头并启发了许多有前途的算法例如协同训练机制 [16]、子空间学习方法 [17] 和多核学习MKL[ 18]。最流行的 MVL 方法之一是将多视图数据映射到一个公共特征空间最大限度地提高多个视图的相互一致性 [19-22,7]。在这个研究方向中较早且具有代表性的是典型相关分析CCA[11]它是一种搜索两个特征向量的线性映射的统计方法。之后CCA 的各种扩展一直致力于学习多模态或视图的共享低维特征空间例如内核 CCA [23,24]、共享内核信息嵌入 [18,25]。除了CCAMVL的思想已经渗透到多种学习方法中[10,26-28]例如降维[13]、聚类分析[29]和集成学习[30]。尽管上述这些方法取得了可喜的结果但它们使用手工制作的特征和线性嵌入函数无法捕捉复杂多视图数据的非线性特性。
非线性是一个数学术语描述了自变量和因变量之间不存在直线或直接关系的情况。在非线性关系中输出的变化不与任何变化成正比输入的。在检查学习模型的输入和输出之间的关系时非线性是一个常见问题。在机器学习和计算机视觉领域存在各种类型的非线性数据例如文本、图像、视频和音频。随着信息技术的快速发展现实世界的应用中每天都会产生大量具有非线性特性的多视图数据如图 1 所示。多视图数据的这种线性特性使得多视图上的学习任务成为可能。数据仍然具有挑战性.
在这里插入图片描述
近年来由于强大的特征抽象能力深度学习方法[31]以优异的性能广泛应用于计算机视觉[20,32-34]和人工智能[19,35,36,22]等许多应用领域。深度学习方法可以通过允许多个分层来有效地学习目标数据的复杂、微妙、非线性和抽象表示。随着深度学习在许多应用领域的成功深度 MVL 方法也被越来越多地利用并取得了可喜的成果 [35,19,32,36,33,34,20,22]。

鉴于近年来提出的大量基于深度学习的 MVL 方法我们试图对这些工作进行全面回顾并提出我们的分析。如图 2 所示我们首先回顾了本文深度学习范围内的代表性 MVL 方法例如多视图自动编码器 (AE)、传统神经网络 (CNN) 和深度简短网络 (DBN)。然后我们研究了当传统学习方法遇到深度学习模型时 MVL 机制的进步例如深度多视图典型相关分析 (CCA)、矩阵分解 (MF) 和信息瓶颈 (IB).最后我们回顾了深度 MVL 方法的几个重要应用、广泛使用的数据集和未解决的问题以进行进一步的研究和探索。
在这里插入图片描述

作者将多视图深度学习分为CNNAE,GAN,GNN,DBN,RNN

1.1 Comparison with Previous Reviews

最近一些关于 MVL 的重要相关调查已经发表总结了现有 MVL 方法的理论、方法、分类和应用 [10,26–28,37–40]。这些调查侧重于特定 MVL 方法的问题例如多视图融合 [10,27,28]、多模态学习 [37,38]、多视图聚类 [26] 和多视图表示学习 [39] ,40]。
与以往的调查相比本文侧重于从深度学习和 MVL 的交叉角度回顾文献因为很少有调查直接总结深度 MVL 方法。特别是[10,26–28] 中的调查侧重于传统学习方法领域中的 MVL 方法。

例如Baltrusaitis 等人 [38] 和 Li 等人 [39] 总结了具有代表性的多视图特征学习方法的浅层学习模型其中基于深度学习的 MVL 方法在他们的研究中被忽略或仅总结了一小部分。相比之下我们强调了近年来受到更多关注的深度 MVL 方法。从深度模型的角度来看与本文最相关的工作是 [37,40]。然而他们都专注于多模态表示融合的模型和应用。我们的审查与上述两个审查之间的主要区别总结为以下两个方面。首先这篇评论涉及 MVL 的更多方面而其他两个评论则侧重于多视图特征学习。其次我们还回顾了传统方法的深度多视图扩展如深度多视图 MF、深度多视图光谱学习和深度多视图 IB这些方法从未被调查过。

本文组织如下。在第 2 节中介绍了深度学习范围内的 MVL 方法例如多视图自动编码器、自动编码器和传统神经网络。在第 3 节中介绍了当传统学习方法遇到深度学习模型时 MVL 机制的进步例如深度多视图矩阵分解和深度多视图信息瓶颈。在第 4 节中我们介绍了 MVL 在不同领域中的几个有趣应用。在第 5 节中总结了 MVL 领域中几个广泛使用的数据集。在第 6 节中比较了具有代表性的深度 MVL 方法的性能。最后第 6 节提供了深度 MVL 研究中的几个开放问题我们旨在帮助推进深度 MVL 的发展。

2 Multi-view Learning Methods in The Deep Learning Scope

2.1 Multi-view convolutional neural network

作为一种典型的深度学习算法卷积神经网络 (CNN) [31] 旨在学习具有各种参数优化的高级特征表示 [41-43]并在各个领域展示了卓越的性能 [44,45]。与单视图 CNN 架构相比多视图 CNN 被定义为从多个特征集建模可以访问目标数据的多视图信息例如 3D 形状识别 [46]、多元脑电图 (EEG) [47] 多特征聚合[48]。多视图 CNN 架构旨在整合来自不同视图的多视图信息以获得更具辨别力的通用表示。现有的多视图 CNN 架构通常分为以下两种类型单视图一网络机制和多视图一网络机制如图 3 所示。
在这里插入图片描述

基于单视图一网络机制的多视图 CNN 对每个视图采用一个卷积神经网络并分别提取每个视图的特征表示然后通过网络的后续部分融合多个表示 [49–52,2, 53,46–48]。以 3D 形状识别为例Yang 等人 [46] 提出了一种多视图 CNN 方法用于 3Dimensional (3D) 模型的综合特征提取和聚合。正如我们从图 4 中看到的给定一个 3D 模型它首先被转换为生成 N 个图像的 N 个视图。然后将这些图像放入 N 个 CNN 架构中以获得每个视图的特征表示。这些特定于视图的特征被集成并传递到以下特征聚合模型中以获得紧凑的、有判别力的形状特征。对于one-view-one-network策略还有许多其他的努力来设计多视图CNN架构并探索它们的应用。例如Feichtenhofer 等人 [2] 探索了几种结合 CNN 特征以全面提取人类活动时空特征的机制。

Multi-view-one-net 机制将多视图数据馈送到同一网络以获得最终表示。例如Dou 等人 [54] 提出了一种通过结合多层次信息进行肺结节检测的上下文 3D CNN。该网络包括 3D 卷积层、3D 最大池化层和全连接层用于分层提取最终特征表示。

本质上one-view-one-net机制和multi-view-one-net机制的区别在于不同视图的融合方式。同样以3D形状识别为例设 $x^a_t \in R^{H*W*D}$ 和 $x^b_t \in R^{H*W*D}$ 表示融合层的两个输入数据y表示融合层的输出结果其中H;W;D 是当前层的维度。表 1 总结了两种不同的融合类型。
在这里插入图片描述

2.2. Multi-view auto-encoder

自动编码器 (AE) 是神经网络的一种变体在数据检索 [35]、人体姿势恢复 [55] 和疾病分析 [56] 等病毒应用中取得了可喜的成果。 AEs是深度学习文献中的无监督特征学习方法由两个目标函数组成编码函数f()和解码函数g()。具体来说编码函数旨在将输入数据 $\in R^{D_1}$ 映射到压缩隐藏表示 $\in R^{D_2}$ $\approx f(X)$ 其中 D1 和 D2 是原始数据及其压缩表示的维度。解码函数 gx 旨在从其压缩的隐藏表示中重建数据 X使得 $\approx X$ . AE架构的超参数是通过重建的最小化误差 $L (X, g (V))$ 得到的可以通过一些损失来衡量比如平方损失。例如AE的cost function用square loss作为reconstruction error制定如下:
在这里插入图片描述
最近提出了一些工作来通过使用 AE 来学习多视图数据的通用表示。例如Ngiam 等人 [57] 设计了一种新颖的双峰自动编码器BAE如图 5 所示。BAE 旨在找到音频和视频通过最小化两个输入视图和重建表示的重建误差。
在这里插入图片描述
受 BAE 的启发Feng 等人 [35] 提出了一种对应自动编码器Corr-AE来进行跨模态检索它同时学习多种模态的共享信息和每个模态中的特定信息。 Corr-AE 的主要思想是最小化多个模态之间的相关学习误差和每个模态的特征学习误差。如图 6 所示所提出的 Corr-AE 模型由以下两个子网络组成每个子网络都是一个基本的自动编码器。这两个子网络通过设计一个具有预定义相似性度量的代码层来组合。 Feng 等人 [35] 还提出了 Corr-AE 的全模态版本它可以看作是标准自动编码器和 Corr-AE 的集成如图 6 所示。(b)
在这里插入图片描述
因此Zhang 等人 [59] 在自动编码器网络 (AE2-Nets) 中提出了一种自动编码器它专注于无监督表示学习的任务。 AE2-Nets 旨在自动将异构视图映射到通用表示同时自适应地平衡多个视图之间的一致性和互补性。 AE2-Nets采用内部自动编码器网络从每个单视图中提取信息并采用外部自动编码器网络对多视图信息进行编码。

最近针对各种任务提出了 AE 架构的多视图扩展例如 3D 重建 [60,19]、异常检测 [3,61]、医学数据分析 [56,32]、注释 [62,63] 和人体姿势恢复[55]。 Yang 等人 [60] 提出了一种具有注意力聚合模型的多视图 3D 重建方法该方法融合了从不同视点记录的图像集合中编码的多个深度特征。巴特等人[19] 提出了一种基于集合的深度跨模态自动编码器CMAE它在获得另一个视图的情况下重建数据的一个视图而每个中间步骤或每个隐藏层的表示之间的交互是增加。 Deepak 等人 [3] 提出通过时空自动编码器学习用于多视图视频异常检测的深度特征它将手工制作的特征和来自时空自动编码器的深度特征与原始输入视频相结合。 Zhang 等人 [56] 提出了一种边缘敏感自动编码器 (MSAE) 方法来识别蛋白质折叠和阿尔茨海默病。在 MASE 中编码器用于将多视图生理信号映射到公共共享子空间而解码器架构用作重建的限制。此外MASE 使用自调整方案来自适应地加权不同视图的重要性。 Wei 等人 [32] 提出了一种用于磁共振 (MR) 图像分割的多视图深度神经网络 (DNN)它使用卷积自动编码器来恢复 MR 切片。Hong 等人 [55] 提出了一种用于多模态人体姿势恢复的深度自动编码器架构其中包括 2D 和 3D 特征学习部分。

2.3. Multi-view generative adversarial networks

作为一种无监督的深度学习模型==生成对抗网络 (GAN) [64] ==已成功应用于许多领域并取得了可喜的成果例如图像到图像的转换 [65] 和图像修复 [66]。通常基本的 GAN 包括一个生成模型 G 和一个判别模型 D因此它具有最突出的对抗训练特征。生成模型 G 表征源数据的分布而判别模型 D 旨在从训练数据中估计概率分布。
在本节中我们使用变量 x 表示训练图像并使用变量 z 表示先验噪声。在 GAN 的设置中我们将先验噪声 z 作为 G 的输入而将假图像 G(z) 作为 G 的输出。生成器的过程可以表述为一个函数 G(z;hg) 其中hg为G的参数。同理D的输入输出为x和单标量D(x;hd)分别为其中的Dðx hdÞ 是 x 属于训练数据的概率。 GAN的最终目标是得到如下参数:
在这里插入图片描述
从单一视图输入生成具有多个视图的图像是计算机视觉、机器人和图形学广泛应用的基础研究课题。而广泛使用的 GAN 由于其对抗训练的特点已经显示出令人印象深刻的结果 [36,33,68,67]。基于 GAN 的多视图生成方法首先使用编码器 E 将输入图像映射到潜在空间 Z然后采用解码器 G 生成新视图。然而单路径 GAN 可能学习到不完整的表示。为了为多视图生成生成完整的表示已经付出了巨大的努力。多纳休等

[36] 提出双向 GANBiGAN来联合学习推理网络 E 和生成器 G。换句话说BiGAN 提供了一种学习将数据投影回潜在空间的逆映射的方法。 Tran 等人 [33] 提出了一种 DR-GAN 方法该方法也旨在通过学习身份保留表示来合成多视图图像。在 DR-GAN 中其编码器的输出同时充当解码器的输入因此无法处理新数据。之后Huang et al [68] 提出使用双通路 GAN 进行前视图合成其中这两个通路采用两个不同的编码器解码器网络这两个通路捕获全局特征和局部细节。 Tian 等人 [67] 提出了一种双路径 GAN 来保持学习嵌入空间的完整性。这两种学习途径以参数共享的方式协作和竞争显着提高了对未见数据集的泛化能力。这些基于 GAN 的多视图生成之间的差异如图 7 所示。
在这里插入图片描述

除了多视图生成GAN 还被应用于许多其他多视图应用程序。例如Wang 等人 [69] 提出了一种对抗性相关自动编码器ACAE来获得多视图数据的共享特征空间应用于跨视图检索和分类。 Xuan 等人 [70] 专注于多视图珍珠分类因此提出了一种多视图 GAN 来扩展标记的珍珠图像用于训练多流 CNN。
Sun 等人 [71] 提出了一种基于 GAN 的多视图嵌入网络它同时保留来自单个网络视图的信息并考虑不同视图之间的连接性。 Chen 等人 [72] 提出了 BiGAN 的多视图扩展来进行多视图源数据的密度估计。