深度学习的数学原理（十八）—— 视觉Transformer（ViT）

ViT通过将图像分块为序列并引入Transformer架构，突破了CNN的局部感受野限制。其核心设计包括：1）图像分块嵌入，将2D图像转为1D序列；2）类别嵌入实现全局信息聚合；3）多头自注意力机制建立像素间全局关联。与CNN相比，ViT的自注意力权重动态适应不同区域，计算复杂度为O(N²)。实验表明，ViT在CIFAR-10上展现出优于ResNet的性能，验证了Transformer在视觉任务中

xiaolaji600

373人浏览 · 2026-03-12 11:12:10

xiaolaji600 · 2026-03-12 11:12:10 发布

之前的文章中，我们明确了CNN的核心局限性：受局部连接+滑动窗口约束，即使结合FPN多尺度融合，也无法高效捕捉全局信息。视觉Transformer（Vision Transformer, ViT）的出现彻底打破了这一桎梏——它将图像转化为序列，通过自注意力机制直接建立全局像素间的关联，无需依赖多层卷积堆叠扩大感受野。

本文及下篇文章将先推导ViT适配视觉任务的核心设计（图像分块、位置编码），再完整拆解Transformer的核心组件（多头自注意力、前馈网络、层归一化），最后实现简易ViT并对比其与ResNet在CIFAR-10上的表现。ViT仅根据已有资料来进行Transformer尝试，从实践说明Transformer相较于CNN的优势

本篇暂时不会做复杂数学推导，目的仅为了展示Transformer效果，后续会详细拆解每一部分和其数学原理。

一、ViT的提出背景：从CNN到Transformer的视觉任务适配

CNN处理图像的核心是空间结构优先，而Transformer的设计初衷是处理序列数据（如文本）。ViT的核心创新是将2D图像转化为1D序列，让Transformer能直接适配视觉任务，其逻辑围绕如何保留图像的空间信息展开。

1.1 图像分块嵌入的数学原理

对于尺寸为 $\times W \times C$ 的图像（如CIFAR-10的 $32 \times 32 \times 3$ ），ViT首先将其划分为固定大小的非重叠块（Patch），这一过程的数学定义为：

（1）分块操作的数学表达

设分块尺寸为 $\times P$ ，则图像可划分为 $\frac{H \times W}{P^2}$ 个块，每个块的尺寸为 $\times P \times C$ 。以CIFAR-10为例，若 $P = 4$ ，则：
$\frac{32 \times 32}{4 \times 4} = 64$
每个块的尺寸为 $\times 4 \times 3 = 48$ 维。

分块操作可视为一种「硬编码的卷积」：用步长为 $P$ 、尺寸为 $\times P$ 的卷积核对图像进行无重叠滑动，数学上与卷积的区别是：

卷积：参数可学习，输出通道数可自定义；
图像分块：无参数，输出维度固定为 $P2×CP^2 \times C$ 。

（2）块嵌入（Patch Embedding）

将每个 $\times P \times C$ 的块展平为1D向量（维度为 $Dpatch=P2×CD_{patch} = P^2 \times C$ ），再通过线性层映射到模型的隐藏维度 $D$ ，数学表达式为：
$\mathbf{z}_i^0 = \mathbf{E} \cdot \mathbf{x}_i + \mathbf{b}_e \quad (i=1,2,...,N)$
其中：

$xi∈RDpatch\mathbf{x}_i \in \mathbb{R}^{D_{patch}}$ ：第 $i$ 个展平后的块向量；
$E∈RD×Dpatch\mathbf{E} \in \mathbb{R}^{D \times D_{patch}}$ ：嵌入矩阵（线性层权重）；
$be∈RD\mathbf{b}_e \in \mathbb{R}^D$ ：嵌入偏置；
$zi0∈RD\mathbf{z}_i^0 \in \mathbb{R}^D$ ：第 $i$ 个块的嵌入向量（Transformer的输入序列元素）。

（3）分块尺寸的选择逻辑

分块尺寸 $P$ 的选择需平衡局部信息保留与序列长度，数学上需满足：

$P$ 过小： $N$ 过大（序列过长），自注意力的计算复杂度呈 $O(N^2)$ 增长；
$P$ 过大：每个块的局部信息不足，丢失细粒度特征；
经验公式： $\sqrt{\frac{H \times W}{N_{target}}}$ ，其中 $N_{target}$ 为目标序列长度（通常取16/32/64）。

以CIFAR-10（32×32）为例，若目标序列长度 $N_{target}=64$ ，则 $P = 4$ ；若 $N_{target}=16$ ，则 $P = 8$ 。

1.2 类别嵌入与序列构建

为让Transformer能完成分类任务，ViT在序列开头添加一个可学习的类别嵌入（Class Token） $z00∈RD\mathbf{z}_0^0 \in \mathbb{R}^D$ ，最终输入序列为：
$[\mathbf{z}_0^0; \mathbf{z}_1^0; \mathbf{z}_2^0; ...; \mathbf{z}_N^0] \in \mathbb{R}^{(N+1) \times D}$
其中「;」表示拼接操作。分类时仅取类别嵌入的最终输出作为特征，数学上等价于让Transformer聚焦全局信息的汇总结果。
Class Token 本质就是对所有 patch 做自适应参数的加权平均这种设计其实是沿用了Transformer中的[CLS] token

NLP 中 [CLS] token：汇总整句话的语义信息，用于文本分类；
ViT 中 Class Token：汇总整张图的视觉信息，用于图像分类；

二、Transformer核心组件①：多头自注意力（MSA）的数学推导

自注意力（Self-Attention）是Transformer的核心，其数学本质是通过计算序列元素间的关联权重，实现全局信息的加权融合，而多头自注意力（Multi-Head Self-Attention, MSA）则进一步提升了特征的表达能力。

2.1 基础自注意力的完整公式

自注意力的输入是序列 $Z∈R(N+1)×D\mathbf{Z} \in \mathbb{R}^{(N+1) \times D}$ ，输出是与输入维度相同的融合特征，其计算分为三步：

（1）查询/键/值（Q/K/V）映射

将输入序列分别映射到查询（Query）、键（Key）、值（Value）空间，数学表达式为：
$\mathbf{Q} = \mathbf{Z} \cdot \mathbf{W}_Q, \quad \mathbf{K} = \mathbf{Z} \cdot \mathbf{W}_K, \quad \mathbf{V} = \mathbf{Z} \cdot \mathbf{W}_V$
其中：

$WQ,WK,WV∈RD×D\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V \in \mathbb{R}^{D \times D}$ ：可学习的映射矩阵；
$Q,K,V∈R(N+1)×D\mathbf{Q}, \mathbf{K}, \mathbf{V} \in \mathbb{R}^{(N+1) \times D}$ ：查询、键、值矩阵。

（2）注意力得分与权重计算

计算每个查询与所有键的相似度（得分），并归一化为权重，数学表达式为：
$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{Softmax}\left( \frac{\mathbf{Q} \mathbf{K}^T}{\sqrt{d_k}} \right) \mathbf{V}$
其中：

$QKT∈R(N+1)×(N+1)\mathbf{Q} \mathbf{K}^T \in \mathbb{R}^{(N+1) \times (N+1)}$ ：注意力得分矩阵，元素 $a_{ij}$ 表示第 $i$ 个元素对第 $j$ 个元素的关注度；
$dk\sqrt{d_k}$ ：缩放因子（ $d_k = D/h$ ， $h$ 为头数），用于缓解维度 $D$ 过大导致的得分值爆炸；
$Softmax\text{Softmax}$ ：行归一化，让每个元素的注意力权重之和为1；
最终输出：值矩阵的加权和，实现全局信息融合。

（3）与CNN局部特征提取的对比

特征提取方式	关联范围	权重特性	计算复杂度
CNN卷积	局部（卷积核尺寸）	共享权重（滑动窗口）	$O(K^2 C_{in} C_{out} HW)$
自注意力	全局（整个序列）	动态权重（逐元素学习）	$O(N^2 D)$

核心差异：CNN的权重是空间共享的，而自注意力的权重是动态自适应的——对于图像中的不同区域，自注意力能学习到不同的关联权重，这是其全局特征捕捉能力的核心。

2.2 多头自注意力的数学逻辑

多头自注意力将自注意力拆分为 $h$ 个并行的头，每个头关注不同的特征维度，最终拼接融合，数学流程为：

（1）分拆头

将 $Q,K,V\mathbf{Q}, \mathbf{K}, \mathbf{V}$ 按维度 $D$ 拆分为 $h$ 个头，每个头的维度为 $d_k = D/h$ ：
$\mathbf{Q}_i = \mathbf{Q} \cdot \mathbf{W}_{Q_i}, \quad \mathbf{K}_i = \mathbf{K} \cdot \mathbf{W}_{K_i}, \quad \mathbf{V}_i = \mathbf{V} \cdot \mathbf{W}_{V_i} \quad (i=1..h)$
其中 $WQi,WKi,WVi∈RD×dk\mathbf{W}_{Q_i}, \mathbf{W}_{K_i}, \mathbf{W}_{V_i} \in \mathbb{R}^{D \times d_k}$ 。

（2）多头计算与拼接

对每个头计算自注意力，再将结果拼接并线性映射：
$\text{MSA}(\mathbf{Z}) = \text{Concat}(\text{Attention}_1, ..., \text{Attention}_h) \cdot \mathbf{W}_O$
其中 $WO∈RD×D\mathbf{W}_O \in \mathbb{R}^{D \times D}$ 为输出映射矩阵， $Concat\text{Concat}$ 为拼接操作。

数学意义：多头自注意力让模型能同时捕捉不同类型的全局关联（如颜色关联、纹理关联、形状关联），提升特征的多样性。

三、Transformer核心组件②：FFN与LN的数学设计

除了MSA，Transformer的编码器还包含前馈网络（FFN）和层归一化（Layer Normalization, LN），前者实现特征的非线性变换，后者解决训练不稳定问题。

3.1 层归一化（LN）的数学原理

CNN中常用的Batch Normalization（BN）是批次维度归一化，而Transformer适配序列任务，采用层归一化（LN）——对每个序列元素的特征维度归一化，数学表达式为：

（1）LN的计算公式

$\text{LN}(\mathbf{z}) = \gamma \cdot \frac{\mathbf{z} - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta$
其中：

$z∈RD\mathbf{z} \in \mathbb{R}^D$ ：单个序列元素的特征向量；
$μ=1D∑i=1Dzi\mu = \frac{1}{D} \sum_{i=1}^D z_i$ ：特征维度的均值；
$σ2=1D∑i=1D(zi−μ)2\sigma^2 = \frac{1}{D} \sum_{i=1}^D (z_i - \mu)^2$ ：特征维度的方差；
$γ,β∈RD\gamma, \beta \in \mathbb{R}^D$ ：可学习的缩放和平移参数；
$ϵ\epsilon$ ：防止除0的小常数。

（2）LN与BN的核心差异

归一化方式	归一化维度	适用场景	缺陷
BN	批次维度（同一批次的所有样本）	图像任务（CNN）	依赖批次大小，小批次效果差
LN	特征维度（单个样本的特征）	序列任务（Transformer）	对特征分布的鲁棒性稍弱

适配性解释：Transformer处理的序列长度 $N$ 可能变化（如不同图像的分块数不同），而LN不依赖批次维度，更适合序列数据的动态特性。

3.2 前馈网络（FFN）的数学逻辑

FFN是对每个序列元素的独立非线性变换，数学表达式为：
$\text{FFN}(\mathbf{z}) = \max(0, \mathbf{z} \cdot \mathbf{W}_1 + \mathbf{b}_1) \cdot \mathbf{W}_2 + \mathbf{b}_2$
其中：

$W1∈RD×Dff\mathbf{W}_1 \in \mathbb{R}^{D \times D_{ff}}$ ， $W2∈RDff×D\mathbf{W}_2 \in \mathbb{R}^{D_{ff} \times D}$ （通常 $D_{ff}=4D$ ）；
$max⁡(0,⋅)\max(0, \cdot)$ ：ReLU激活函数，实现非线性；
核心逻辑：先升维再降维，扩大特征的表达空间，同时保持序列长度不变。

与CNN的对比：CNN的非线性变换是「空间共享」的（卷积+激活），而FFN是「逐元素独立」的，更灵活但参数更多。

3.3 残差连接的复用

与ResNet类似，Transformer的编码器也使用残差连接，核心公式为：
$\mathbf{z}' = \text{LN}(\mathbf{z} + \text{MSA}(\text{LN}(\mathbf{z})))$
$\mathbf{z}'' = \text{LN}(\mathbf{z}' + \text{FFN}(\mathbf{z}'))$
这一设计保证了梯度的稳定传递，与ResNet的残差连接逻辑完全一致——这也是深层Transformer能稳定训练的核心原因。

关键点回顾

本文简要说明了Transformer（ViT）的各个组件，下一篇文章会尝试组合其各个组件，并训练一个简单的ViT对比ResNet的效果

ViT的核心适配逻辑：图像分块（ $N = H \times W / P^{2}$ ）→ 块嵌入（线性映射）→ 序列构建（添加类别嵌入+位置编码）；
多头自注意力的核心公式： $MSA=Concat(Attention1,...,Attentionh)⋅WO\text{MSA} = \text{Concat}(\text{Attention}_1,...,\text{Attention}_h) \cdot W_O$ ，动态权重实现全局特征融合；
LN与BN的核心差异：LN对特征维度归一化，适配序列任务；BN对批次维度归一化，适配图像任务；
ViT的优势在于全局特征捕捉能力，但其训练依赖数据量，在小数据集上需结合数据增强/迁移学习。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git