基于典型相关性分析的多视图学习方法（基于神经网络的 CCA）——深度广义典型相关性分析（DGCCA）

不易撞的网名

1039人浏览 · 2024-07-08 14:54:13

不易撞的网名 · 2024-07-08 14:54:13 发布

深度广义典型相关性分析（Deep Generalized Canonical Correlation Analysis, DGCCA）是由Adrian Benton等人提出的，它是深度典型相关分析（DCCA）的进一步拓展，旨在处理多于两个视图（数据集）的典型相关性分析问题。

DGCCA结合了深度学习的强大表示能力和广义典型相关分析（GCCA）的多视图数据融合能力，允许从多个数据源中学习共享的深层表示，这对于多模态数据的分析和融合尤为重要。

DGCCA的目标

DGCCA的目标是在多个数据集之间学习一组共享的潜在表示，即使得每个数据集的潜在表示在CCA意义上具有最大的相关性。

这通过训练多个深度神经网络实现，每个网络负责一个数据集，它们共同学习一组表示，以最大化所有数据集之间的相关性。

DGCCA的数学框架

假设我们有 $K$ 个数据集 $X1,X2,…,XK\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K$ ，每个数据集包含 $N$ 个样本，但可能有不同的特征维度 $d1,d2,…,dKd_1, d_2, \ldots, d_K$ 。

DGCCA的目标是找到 $K$ 个非线性变换 $f1(X1;θ1),f2(X2;θ2),…,fK(XK;θK)f_1(\mathbf{X}_1; \theta_1), f_2(\mathbf{X}_2; \theta_2), \ldots, f_K(\mathbf{X}_K; \theta_K)$ ，其中 $θi\theta_i$ 是第 $i$ 个网络的参数，使得变换后的数据在CCA的意义上具有最大的相关性。

DGCCA的损失函数

DGCCA的损失函数通常设计为最大化所有变换后数据集之间的平均相关性，同时可能包含正则化项来避免过拟合。

具体来说，DGCCA的损失函数可以表示为：

$L_{DGCCA} = - \sum_{i < j} \log \left| \frac{\mathbf{C}_{f_i(X_i)f_j(X_j)}}{\sqrt{\mathbf{C}_{f_i(X_i)f_i(X_i)}\mathbf{C}_{f_j(X_j)f_j(X_j)}}} \right| + \lambda \Omega(\Theta)$

其中，

$Cfi(Xi)fj(Xj)\mathbf{C}_{f_i(X_i)f_j(X_j)}$ 是变换后的数据 $fi(Xi)f_i(\mathbf{X}_i)$ 和 $fj(Xj)f_j(\mathbf{X}_j)$ 之间的互协方差矩阵。
$Cfi(Xi)fi(Xi)\mathbf{C}_{f_i(X_i)f_i(X_i)}$ 和 $Cfj(Xj)fj(Xj)\mathbf{C}_{f_j(X_j)f_j(X_j)}$ 分别是 $fi(Xi)f_i(\mathbf{X}_i)$ 和 $fj(Xj)f_j(\mathbf{X}_j)$ 的自协方差矩阵。
$Ω(Θ)\Omega(\Theta)$ 是正则化项， $Θ\Theta$ 是所有网络参数的集合。
$λ\lambda$ 是正则化参数，用于平衡CCA损失和正则化项的影响。

公式解析

$X1,X2,…,XK\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K$ ：原始输入数据集。
$fi(⋅)f_i(\cdot)$ ：由深度神经网络实现的第 $i$ 个非线性变换函数。
$Cfi(Xi)fj(Xj)\mathbf{C}_{f_i(X_i)f_j(X_j)}$ ：变换后的数据 $fi(Xi)f_i(\mathbf{X}_i)$ 和 $fj(Xj)f_j(\mathbf{X}_j)$ 之间的互协方差矩阵，它衡量了这两组变换后数据的相关性。
$Cfi(Xi)fi(Xi)\mathbf{C}_{f_i(X_i)f_i(X_i)}$ 和 $Cfj(Xj)fj(Xj)\mathbf{C}_{f_j(X_j)f_j(X_j)}$ ：分别表示 $fi(Xi)f_i(\mathbf{X}_i)$ 和 $fj(Xj)f_j(\mathbf{X}_j)$ 的自协方差矩阵，用于衡量各自数据集内部的变量变化。
$θi\theta_i$ ：第 $i$ 个深度神经网络的参数。

训练过程

DGCCA的训练过程涉及使用梯度下降或其他优化算法来最小化上述定义的损失函数。

这意味着要调整网络参数 $θ1,θ2,…,θK\theta_1, \theta_2, \ldots, \theta_K$ ，使得所有变换后的数据在CCA空间中尽可能地相关。

结论

DGCCA克服了DCCA只能处理两个数据集的局限性，允许在多个数据集之间学习深层的共现特征。

通过结合深度学习和多视图数据融合的能力，DGCCA为处理复杂的多模态数据提供了有力的工具，尤其是在需要从不同来源的数据中学习综合表示的场景中，如跨媒体检索、多传感器数据融合等。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git