机器学习 [白板推导]（N）[谱聚类、前馈神经网络]

将数据集DataXN×px⃗1⋯x⃗NTDataXN×px1⋯xNTGVEVv⃗i其中v⃗i↔x⃗iEWwij1⩽ij⩽N(21.1)V&=\{\vec{v}_i\}, &其中 \vec{v}_i\leftrightarrow \vec{x}_i, \\GVEVEviWwij其中vi↔xi1⩽ij⩽N。

神齐的小马

1043人浏览 · 2025-03-14 16:42:50

神齐的小马 · 2025-03-14 16:42:50 发布

21. 谱聚类（Spectral Clustering）

21.1. 背景

在高斯混合模型中，假设样本有多个类别，每个类内数据遵从不同的高斯分布。但在某些数据中（如下图），其并不具有类似高斯分布的特性，则GMM或其他基于空间距离的聚类方法（例如k-means）易于失效。
在这里插入图片描述
为了应对上述问题，一种方法是使用合适的kernel函数，将难以处理的分布转换成高斯分布（或其他空间上易于分离的分布）。但实际应用中这样的kernel函数搜索困难。因此需要另一种基于连通性（Connectivity）的方法，从图的角度理解数据分布，即为谱聚类方法（对应的GMM、K-means一类方法为基于Compactness的方法）。

21.2. 模型介绍

21.2.1. 数学建模

将数据集 $X_{N\times p}=(\vec{x}_1, \cdots, \vec{x}_N)^T$ 视作一个图：
$G={V,E},V={v⃗i},其中v⃗i↔x⃗i,E:W={wij},1⩽i,j⩽N,(21.1)\begin{aligned}G&=\{V, E\}, &\\ V&=\{\vec{v}_i\}, &其中 \vec{v}_i\leftrightarrow \vec{x}_i, \\ E&: W=\{w_{ij}\}, &1\leqslant i, j \leqslant N,\end{aligned}\tag{21.1}$

其中 $V$ 为节点集合，其中每个节点 $v⃗i\vec{v}_i$ 表示对应样本 $x⃗i\vec{x}_i$ 的特征表示； $E$ 为边集合，可以用权重矩阵（邻接矩阵，affinity matrix） $W$ 表示，其中每个元素 $w_{ij}$ 表示节点 $v⃗i\vec{v}_i$ 和 $v⃗j\vec{v}_j$ 的相似度。相似度可以使用多种方法计算，以高斯核函数为例：
$wij={K(v⃗i,v⃗j)=exp⁡{−∥v⃗i−v⃗j∥2σ2},(i,j)∈E0,(i,j)∉E(21.2)w_{ij}=\left\{\begin{matrix}\mathcal{K}(\vec{v}_i, \vec{v}_j)=\exp\{-\frac{\|\vec{v}_i-\vec{v}_j\|}{2\sigma^2}\},&(i, j)\in E\\0,&(i, j)\notin E\end{matrix}\right.\tag{21.2}$

定义相似度损失：存在节点集合 $A⊆VA\subseteq V$ 和 $B⊆VB\subseteq V$ ，则二者的相似度损失为：
$W(A,B)=∑v⃗i∈A∑v⃗j∈Bwij,(21.3)\mathcal{W}(A, B)=\sum_{\vec{v}_i \in A}\sum_{\vec{v}_j \in B}w_{ij},\tag{21.3}$

则可以计算总聚类损失：假设一共聚为 $K$ 个类别： $,AK}\{A_1,\cdots,A_K\}$ ，定义 $Aˉi={Aj}i≠j,1⩽j⩽K\bar{A}_i=\{A_j\}_{i\neq j,1\leqslant j\leqslant K}$ ，则总聚类损失计算为：
$,AK)=∑k=1KW(Ak,Aˉk)=∑k=1K∑v⃗i∈Ak∑v⃗j∉Akwij,(21.4)\begin{aligned}\mathcal{L}(A_1,\cdots,A_K)&=\text{Cut}(A_1,\cdots,A_K)\\ &=\sum_{k=1}^K \mathcal{W}(A_k, \bar{A}_k)\\ &=\sum_{k=1}^K\sum_{\vec{v}_i \in A_k}\sum_{\vec{v}_j \notin A_k}w_{ij},\end{aligned}\tag{21.4}$

则整个聚类问题可以建模为最小化总聚类损失的优化问题： $min⁡{Ak}k=1KL\underset{\{A_k\}_{k=1}^K}{\min}\mathcal{L}$ ，但这个优化目标可能因为数据分布不均衡而导致优化过程产生偏差，因此需要对目标函数进行归一化以排除偏差：
$,AK)=∑k=1KW(Ak,Aˉk)Δk,(21.5)\mathcal{L}_{\text{N}}(A_1,\cdots,A_K)=\sum_{k=1}^K \frac{\mathcal{W}(A_k, \bar{A}_k)}{\Delta_k}, \tag{21.5}$

其中一种计算归一化因子 $Δk\Delta_k$ 的方法是使用样本数，即 $Δk=∣Ak∣\Delta_k=|A_k|$ ，但仅仅考虑样本数不足以消除偏差，因为各个节点在图中的关联度差异很大，因此可以使用基于类内总关联度的归一化因子，计算如下：
$Δk=degree(Ak)=∑v⃗i∈Akdegree(v⃗i)=∑v⃗i∈Ak∑j=1Nwij.(21.6)\begin{aligned}\Delta_k&=\text{degree}(A_k)\\ &=\sum_{\vec{v}_i\in A_k}\text{degree}(\vec{v}_i)\\ &=\sum_{\vec{v}_i\in A_k}\sum_{j=1}^Nw_{ij}.\end{aligned}\tag{21.6}$

21.2.2. 模型求解

指示向量（Indicator Vector）：为了更优雅地表示优化变量，可以采用指示向量 $,yiK]\vec{y}_i=[y_{i1}, \cdots, y_{iK}]$ 表示每个节点 $v⃗i\vec{v}_i$ （或样本 $x⃗i\vec{x}_i$ ）的类别，即 $y_{ik}=1$ 表示该节点属于类别 $A_k$ ，同时 $∑k=1Kyik=1,∀i\sum_{k=1}^Ky_{ik}=1, \forall i$ . 因此总体优化问题可以定义为：
$,y⃗N]TLN(Y)s.t.∑k=1Kyik=1,∀i(21.7)\begin{aligned}\text{Objective}:&\min_{Y=\left[\vec{y}_1, \cdots, \vec{y}_N\right]^T}\mathcal{L}_{\text{N}}(Y)\\ \text{s.t.}&\sum_{k=1}^Ky_{ik}=1, \forall i\end{aligned}\tag{21.7}$

则该问题求解可以表示为： $Y^=arg min⁡YLN(Y)\hat{Y}=\underset{Y}{\argmin}\mathcal{L}_{\text{N}}(Y)$ .

要求解模型，需要将其表示为矩阵形式，首先拆解聚类损失函数：
$LN(Y)=∑k=1KW(Ak,Aˉk)∑v⃗i∈Akdi=tr[(W(A1,Aˉ1)∑v⃗i∈A1diW(A2,Aˉ2)∑v⃗i∈A2di⋱W(AK,AˉK)∑v⃗i∈AKdi)]=tr[(W(A1,Aˉ1)W(A2,Aˉ2)⋱W(AK,AˉK))⋅(∑v⃗i∈A1di∑v⃗i∈A2di⋱∑v⃗i∈AKdi)−1],(21.8)\begin{aligned} \mathcal{L}_{\text{N}}(Y)&=\sum_{k=1}^K\frac{\mathcal{W}(A_k,\bar{A}_k)}{\sum_{\vec{v}_i\in A_k}d_i}\\ &=\text{tr}\left[\left(\begin{matrix} \frac{\mathcal{W}(A_1,\bar{A}_1)}{\sum_{\vec{v}_i\in A_1}d_i} & & & \\ & \frac{\mathcal{W}(A_2,\bar{A}_2)}{\sum_{\vec{v}_i\in A_2}d_i} & & \\ & & \ddots & \\ & & & \frac{\mathcal{W}(A_K,\bar{A}_K)}{\sum_{\vec{v}_i\in A_K}d_i} \end{matrix}\right)\right]\\ &=\text{tr}\left[\left(\begin{matrix} \mathcal{W}(A_1,\bar{A}_1) & & & \\ & \mathcal{W}(A_2,\bar{A}_2) & & \\ & & \ddots & \\ & & & \mathcal{W}(A_K,\bar{A}_K) \end{matrix}\right)\cdot\right.\\ &\left. \left(\begin{matrix} {\sum_{\vec{v}_i\in A_1}d_i} & & & \\ & {\sum_{\vec{v}_i\in A_2}d_i} & & \\ & & \ddots & \\ & & & {\sum_{\vec{v}_i\in A_K}d_i} \end{matrix}\right)^{-1}\right], \end{aligned}\tag{21.8}$

其中 $di=degree(v⃗i)=∑j=1Nwijd_i=\text{degree}(\vec{v}_i)=\sum_{j=1}^Nw_{ij}$ ，令式（21.8）左右两个矩阵分别为 $P$ 和 $Q^{-1}$ ，则 $LN=tr(P⋅Q−1)\mathcal{L}_{\text{N}}=\text{tr}(P\cdot Q^{-1})$ . 此时需要使用 $W$ 和 $Y$ 表示 $P$ 和 $Q$ 即可推导出模型的矩阵表示。

根据指示矩阵 $Y$ 进行推导：
$,y⃗N]⋅[y⃗1⋮y⃗N]=∑i=1Ny⃗iy⃗iT,(21.9)\begin{aligned} Y^TY&=\left[\vec{y}_1, \cdots, \vec{y}_N\right]\cdot\left[\begin{matrix}\vec{y}_1\\\vdots\\\vec{y}_N\end{matrix}\right]=\sum_{i=1}^N\vec{y}_i\vec{y}_i^T, \end{aligned}\tag{21.9}$

其中指示向量具有一个特性：当 $v⃗i∈Ak\vec{v}_i\in A_k$ 时，
$y⃗iy⃗iT={apq}K×K,apq={1,p=q=k0,otherwise,(21.10)\vec{y}_i\vec{y}_i^T=\{a_{pq}\}_{K\times K}, a_{pq}=\left\{\begin{matrix}1, p=q=k\\0, \text{otherwise}\end{matrix}\right.,\tag{21.10}$

因此联立式（21.9）和式（21.10）可得：
$YTY=∑i=1Ny⃗iy⃗iT=(∑v⃗i∈A11∑v⃗i∈A21⋱∑v⃗i∈AK1),(21.11)\begin{aligned} Y^TY&=\sum_{i=1}^N\vec{y}_i\vec{y}_i^T=\left(\begin{matrix} \sum_{\vec{v}_i\in A_1}1 &&&\\ &\sum_{\vec{v}_i\in A_2}1&&\\ &&\ddots&\\ &&&\sum_{\vec{v}_i\in A_K}1 \end{matrix}\right), \end{aligned}\tag{21.11}$

因此设关联度对角矩阵 $D=(d1⋱dN)=diag(W⋅1⃗N)D=\left(\begin{matrix}d_1&&\\&\ddots&\\&&d_N\end{matrix}\right)=\text{diag}(W\cdot \vec{1}_N)$ ，则有：
$YTDY=∑i=1Ndi⋅y⃗iy⃗iT=(∑v⃗i∈A1d1∑v⃗i∈A2d2⋱∑v⃗i∈AKdK)=Q.(21.12)\begin{aligned} Y^TDY&=\sum_{i=1}^Nd_i\cdot\vec{y}_i\vec{y}_i^T\\&=\left(\begin{matrix} \sum_{\vec{v}_i\in A_1}d_1 &&&\\ &\sum_{\vec{v}_i\in A_2}d_2&&\\ &&\ddots&\\ &&&\sum_{\vec{v}_i\in A_K}d_K \end{matrix}\right)\\&=Q. \end{aligned}\tag{21.12}$

另外，相似度损失可以有如下关系：
$W(Ak,Aˉk)=∑v⃗i∈Ak∑v⃗j∉Akwij=∑v⃗i∈Ak(∑v⃗j∈Vwij−∑v⃗j∈Akwij)=∑v⃗i∈Akdi−W(Ak,Ak),(21.13)\begin{aligned}\mathcal{W}(A_k, \bar{A}_k)&=\sum_{\vec{v}_i \in A_k}\sum_{\vec{v}_j \notin A_k}w_{ij}\\ &=\sum_{\vec{v}_i \in A_k}\left(\sum_{\vec{v}_j \in V}w_{ij}-\sum_{\vec{v}_j \in A_k}w_{ij}\right)\\ &=\sum_{\vec{v}_i \in A_k}d_i-\mathcal{W}(A_k, A_k),\end{aligned}\tag{21.13}$

因此将式（21.13）带入矩阵 $P$ 可得：
$P=(W(A1,Aˉ1)W(A2,Aˉ2)⋱W(AK,AˉK))=Q−(W(A1,A1)W(A2,A2)⋱W(AK,AK)),(21.14)\begin{aligned} P&=\left(\begin{matrix} \mathcal{W}(A_1,\bar{A}_1) & & & \\ & \mathcal{W}(A_2,\bar{A}_2) & & \\ & & \ddots & \\ & & & \mathcal{W}(A_K,\bar{A}_K) \end{matrix}\right)\\ &=Q-\left(\begin{matrix} \mathcal{W}(A_1,A_1) & & & \\ & \mathcal{W}(A_2,A_2) & & \\ & & \ddots & \\ & & & \mathcal{W}(A_K,A_K) \end{matrix}\right) ,\end{aligned}\tag{21.14}$

为进一步推导，先计算
$\begin{aligned} Y^TWY&=\left(\begin{matrix}\vec{y}_1&\cdots&\vec{y}_N\end{matrix}\right)\cdot \left(\begin{matrix}w_{11}&\cdots&w_{1N}\\\vdots&\ddots&\vdots\\w_{N1}&\cdots&w_{NN}\end{matrix}\right)\cdot \left(\begin{matrix}\vec{y}_1^T\\\vdots\\\vec{y}_N^T\end{matrix}\right)\\ &=\sum_{i=1}^N\sum_{j=1}^N w_{ij}\cdot \vec{y}_i\vec{y}_j^T\\ &=\left(\begin{matrix}\sum_{\vec{v}_i\in A_1}\sum_{\vec{v}_j\in A_1}w_{ij}&\cdots&\sum_{\vec{v}_i\in A_1}\sum_{\vec{v}_j\in A_K}w_{ij}\\\vdots&\ddots&\vdots\\\sum_{\vec{v}_i\in A_K}\sum_{\vec{v}_j\in A_1}w_{ij}&\cdots&\sum_{\vec{v}_i\in A_K}\sum_{\vec{v}_j\in A_K}w_{ij}\end{matrix}\right), \end{aligned}\tag{21.15}$
尽管该矩阵与式（21.14）中减号后的矩阵不同，但因为最终的损失函数计算要取 $tr(⋅)\text{tr}(\cdot)$ ，所以非对角线元素不影响计算结果，因此可以将损失函数表示为：
$\begin{aligned} \mathcal{L}_{\text{N}}(Y)&=\text{tr}(P\cdot Q^{-1})\\ &=\text{tr}\left[(Y^TDY-Y^TWY)\cdot(Y^TDY)^{-1}\right]\\ &=\text{tr}\left[Y^T(D-W)Y\cdot(Y^TDY)^{-1}\right], \end{aligned}\tag{21.16}$

其中 $D - W$ 为拉普拉斯矩阵。至此便完成了矩阵表示，可以对其求导得到解析解或梯度下降逼近解，过程略。

22. 前馈神经网络

22.1. 从机器学习到深度学习

机器学习分为频率派和贝叶斯派，分别从不同的角度深入研究得到了不同的模型，也以不同的范式进入了深度学习时代。具体来说：

频率派 → 统计学习
- 正则化
- 核化（Kernel SVM）
- 集成化（Adaboost，Random Forest）
- 层次化（Neural Network —— 狭义的深度学习）
  - MLP
  - AutoEncoder
  - CNN
  - RNN
贝叶斯派 → 概率图模型
- 有向图：Bayesian Network → Deep Directed Network
  - Sigmoid Belief Network
  - VAE
  - GAN
- 无向图：Markov Network → Deep Bottzmam Machine
- 有向+无向：Mixed Network → Deep Belief Network

贝叶斯派的深度学习范式被称为 Deep Generative Model，也属于现代深度学习的分支，但因为概率图模型本身在增加深度后学习和推理难度显著增加，因此深度学习很多时候在狭义上指 Deep Neural Network 为基础的频率派深度学习方法。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git