引言:当AI训练不再"炸机",这才是真正的突破

2026年1月1日,DeepSeek团队悄然发布了一篇重磅论文《mHC: Manifold-Constrained Hyper-Connections》,署名梁文锋。这篇论文不是在模型规模上做文章,而是直指AI训练的"地基"——残差连接机制。这就像在摩天大楼的钢筋混凝土基础上,突然发现可以给每根钢筋加个智能调音台,让建筑更稳固、更高效。

为什么这个发现如此重要?因为过去十年,ResNet的残差连接机制是所有大模型的"隐形地基"。但正如建筑工人发现地基可以优化,DeepSeek的mHC架构,让这个"地基"变得更强大、更稳定。


1. ResNet:为什么它是大模型的"隐形基石"?

1.1 从"传话游戏"说起

想象一个100人参加的"传话游戏":第一个人说一句话,传给第二个人,第二个人再传给第三个人…直到第100个人。

  • 没有ResNet:第100个人听到的,和第一个人说的可能完全不同。这就是"梯度消失",信息在传递过程中丢失。
  • 有ResNet:每个人在传递信息的同时,还把原始信息直接传递给下一个人。这样第100个人不仅能听到修改后的内容,还能看到原始内容,确保了信息的完整性。

ResNet的公式很简单:y = F(x) + x,其中x是输入,F(x)是网络层计算,y是输出。


1.2 ResNet的"隐形基石"地位

Transformer(包括GPT、Llama等所有主流大模型)都继承了ResNet的残差连接机制。没有它,大模型无法堆叠到百层以上而崩溃。可以说,ResNet是所有现代大模型的"隐形基石"。


2. ResNet的局限:为什么"一条主干"不够用?

ResNet的残差连接机制虽然稳定,但太"死板"了:

  • 恒等映射系数固定为1.0
  • 残差流在层与层之间的传递方式是单一且静态的
  • 无法灵活地融合不同层的特征

类比:ResNet就像一条笔直的引水渠,水流(信号)会顺着这条渠道,毫无阻碍地从源头直接流淌到终点。但问题在于,它无法在传递过程中融合沿途的"矿物质"(复杂特征),导致模型在处理复杂任务时显得单调和死板。


3. HC (Hyper-Connections):多路残差流的尝试

HC(Hyper-Connections)尝试解决ResNet的局限性,它构建了多条并行的残差流:

  • 将原来的"1条主干"扩展为"n条并行主干"
  • 允许不同流之间进行动态混合
  • 核心公式:y = F(x) + Wx

3.1 HC的优势

  • 网络容量大幅增加
  • 特征表达能力更强
  • 可以更灵活地组合不同层的特征

3.2 HC的致命缺陷

HC的"W"是动态变化的,这导致了严重的数值不稳定性:

  • 信号经过多次矩阵乘法后,数值容易失控(梯度爆炸/消失)
  • 模型训练经常崩溃

类比:HC就像是贸然挖开了水库的堤坝,让水流涌入了一片缺乏约束的湿地河网。水流可以随意分叉、汇合,极大地增加了水道的灵活性和覆盖面。但由于缺乏渠道坝的约束,水道的宽窄深浅完全随着每一波水流的冲击而剧烈变化,导致洪水或死水。


4. mHC:流形约束超连接,如何做到"既灵活又稳定"?

在这里插入图片描述

mHC(Manifold-Constrained Hyper-Connections)是DeepSeek的创新,它保留了HC的灵活性,同时解决了HC的数值不稳定性问题。


4.1 mHC的核心创新

mHC给动态权重矩阵W(即H_res)加上了"双随机矩阵流形"约束:

  • 所有元素≥0
  • 每一行的和=1
  • 每一列的和=1

这个约束确保了无论W如何动态变化,它对信号的变换始终是良性的。


4.2 为什么"双随机矩阵"如此重要?

双随机矩阵的数学性质:

  • 每条流的输出是其他流的"凸组合"(不会无穷放大)
  • 多层复合后仍然保持"均值守恒 + 范数不扩张"
  • 确保了类似identity mapping的稳定性

类比:mHC是对HC的湿地河网进行了一次现代化的水利工程改造。工程师们保留了多条并行渠道以维持灵活性,但引入了坚固的混凝土渠道坝和智能流速控制阀——这便是所谓的流形约束。这套系统保证了无论水流如何在不同渠道间切换,总水量既不会暴增也不会骤减。


4.3 mHC的数学原理:从残差连接到流形约束的理论深化

4.3.1 问题背景:多路残差流的数学挑战

在深度学习中,残差连接的核心目标是解决梯度消失/爆炸问题,确保信息能够有效传递。传统的ResNet残差连接采用恒等映射:y = F(x) + x,其中F(x)是网络层的非线性变换,x是原始输入。这种设计保证了梯度在反向传播时不会指数级衰减。

HC(Hyper-Connections)尝试扩展这一思想,引入多条并行残差流,其核心公式为:y = F(x) + Wx,其中W是动态变化的权重矩阵。HC的创新之处在于允许不同残差流之间进行动态混合,从而增强模型的表达能力。

然而,HC存在严重的数值不稳定性问题。当W动态变化时,其特征值可能超出[0,1]范围,导致梯度爆炸或消失。具体来说,如果W的特征值大于1,信号会指数级放大;如果小于1,信号会指数级衰减。


4.3.2 mHC的数学框架

mHC(Manifold-Constrained Hyper-Connections)的核心创新在于将W约束在"双随机矩阵流形"上,确保了信号变换的稳定性。mHC的完整数学公式为:

x l + 1 = H r e s ⋅ ( H p o s t T ⋅ F ( x l ) + H p r e ⋅ x l ) x_{l+1} = H_{res} \cdot (H_{post}^T \cdot F(x_l) + H_{pre} \cdot x_l) xl+1=Hres(HpostTF(xl)+Hprexl)

其中:

  • x l x_l xl:第 l l l层的残差流状态,维度为 n × C n \times C n×C n n n表示残差流数量, C C C表示特征维度)
  • F ( x l ) F(x_l) F(xl):当前层的计算(包括Attention和MLP),维度与 x l x_l xl相同
  • H p r e H_{pre} Hpre:从 n n n条残差流中读取的组合权重,维度为 1 × n 1 \times n 1×n
  • H p o s t H_{post} Hpost:将 F ( x l ) F(x_l) F(xl)的输出写回到 n n n条残差流的权重,维度为 1 × n 1 \times n 1×n
  • H r e s H_{res} Hres n × n n \times n n×n的双随机矩阵,是mHC的核心创新

4.3.3 双随机矩阵的数学性质与理论保障

双随机矩阵(Bistochastic Matrix)是满足以下条件的矩阵:

  1. 所有元素非负: H r e s ( i , j ) ≥ 0 H_{res}(i,j) \geq 0 Hres(i,j)0
  2. 每行和为1: ∑ j = 1 n H r e s ( i , j ) = 1 \sum_{j=1}^{n} H_{res}(i,j) = 1 j=1nHres(i,j)=1
  3. 每列和为1: ∑ i = 1 n H r e s ( i , j ) = 1 \sum_{i=1}^{n} H_{res}(i,j) = 1 i=1nHres(i,j)=1

这种约束确保了mHC的以下关键性质:

  1. 凸组合性质 H r e s ⋅ v H_{res} \cdot v Hresv(其中 v v v是向量)是 v v v的凸组合,不会改变向量的范数( ∥ H r e s ⋅ v ∥ 2 ≤ ∥ v ∥ 2 \|H_{res} \cdot v\|_2 \leq \|v\|_2 Hresv2v2)。

  2. 均值守恒:对于任意输入 x x x H r e s ⋅ x H_{res} \cdot x Hresx的均值与 x x x相同,即 1 n ∑ i = 1 n ( H r e s ⋅ x ) i = 1 n ∑ i = 1 n x i \frac{1}{n}\sum_{i=1}^{n} (H_{res} \cdot x)_i = \frac{1}{n}\sum_{i=1}^{n} x_i n1i=1n(Hresx)i=n1i=1nxi

  3. 多层稳定性:当多层mHC堆叠时,信号的范数不会指数级增长或衰减,保持在恒等映射级别( ∥ x l + 1 ∥ 2 ≈ ∥ x l ∥ 2 \|x_{l+1}\|_2 \approx \|x_l\|_2 xl+12xl2)。

  4. 特征融合能力:通过动态调整 H r e s H_{res} Hres,mHC能够自适应地融合不同残差流的特征,增强模型表达能力。


4.3.4 数学证明:双随机矩阵的稳定性保障

让我们通过数学证明双随机矩阵如何保证mHC的稳定性:

考虑一个简单的mHC层:
x l + 1 = H r e s ⋅ ( H p o s t T ⋅ F ( x l ) + H p r e ⋅ x l ) x_{l+1} = H_{res} \cdot (H_{post}^T \cdot F(x_l) + H_{pre} \cdot x_l) xl+1=Hres(HpostTF(xl)+Hprexl)

假设 F ( x l ) F(x_l) F(xl)是线性变换, F ( x l ) = W F ⋅ x l F(x_l) = W_F \cdot x_l F(xl)=WFxl,则:
x l + 1 = H r e s ⋅ ( H p o s t T ⋅ W F ⋅ x l + H p r e ⋅ x l ) x_{l+1} = H_{res} \cdot (H_{post}^T \cdot W_F \cdot x_l + H_{pre} \cdot x_l) xl+1=Hres(HpostTWFxl+Hprexl)

= H r e s ⋅ ( H p o s t T ⋅ W F + H p r e ) ⋅ x l = H_{res} \cdot (H_{post}^T \cdot W_F + H_{pre}) \cdot x_l =Hres(HpostTWF+Hpre)xl

W m H C = H r e s ⋅ ( H p o s t T ⋅ W F + H p r e ) W_{mHC} = H_{res} \cdot (H_{post}^T \cdot W_F + H_{pre}) WmHC=Hres(HpostTWF+Hpre),则 x l + 1 = W m H C ⋅ x l x_{l+1} = W_{mHC} \cdot x_l xl+1=WmHCxl

由于 H r e s H_{res} Hres是双随机矩阵,其谱半径(最大特征值的模)为1,因此 W m H C W_{mHC} WmHC的谱半径不会超过 ∥ H p o s t T ⋅ W F + H p r e ∥ 2 \|H_{post}^T \cdot W_F + H_{pre}\|_2 HpostTWF+Hpre2。在实际应用中, H p o s t H_{post} Hpost H p r e H_{pre} Hpre是行和为1的向量,因此 ∥ H p o s t T ⋅ W F + H p r e ∥ 2 \|H_{post}^T \cdot W_F + H_{pre}\|_2 HpostTWF+Hpre2通常接近1。

这意味着,mHC的每一层对输入的变换都保持在恒等映射级别,不会导致梯度爆炸或消失。


4.3.5 与传统残差连接的对比

特性 ResNet HC mHC
残差流数量 1 n n
残差流间交互 动态混合 动态混合(流形约束)
数值稳定性
信息保留 恒等映射 不保证 恒等映射级别
特征融合能力
数学约束 双随机矩阵流形

mHC通过双随机矩阵约束,实现了HC的特征融合能力与ResNet的数值稳定性之间的完美平衡。


4.4 Sinkhorn-Knopp算法:双随机矩阵的精确构造

4.4.1 问题定义:从任意矩阵到双随机矩阵

在mHC中,我们需要一个动态可变的双随机矩阵 H r e s H_{res} Hres,但直接约束 H r e s H_{res} Hres为双随机矩阵在优化过程中非常困难。因此,我们采用Sinkhorn-Knopp算法,将任意矩阵转化为双随机矩阵。

算法的目标是:给定一个任意矩阵 A A A(元素为正),找到一个双随机矩阵 H r e s H_{res} Hres,使得 H r e s H_{res} Hres A A A尽可能接近。


4.4.2 Sinkhorn-Knopp算法的详细步骤

Sinkhorn-Knopp算法的核心思想是通过交替行归一化和列归一化,将任意正矩阵转化为双随机矩阵。算法步骤如下:

  1. 初始化:给定一个 n × n n \times n n×n的正矩阵 A A A(所有元素 A ( i , j ) > 0 A(i,j) > 0 A(i,j)>0)。

  2. 指数化:对矩阵 A A A进行指数变换,确保所有元素为正:
    B = exp ⁡ ( A ) B = \exp(A) B=exp(A)
    这一步确保了矩阵中没有负值,为后续归一化提供基础。

  3. 迭代过程(重复20次,通常足够收敛):
    a. 行归一化:对矩阵 B B B的每一行进行归一化,使得每行和为1:
    B ( i , j ) = B ( i , j ) ∑ k = 1 n B ( i , k ) B(i,j) = \frac{B(i,j)}{\sum_{k=1}^{n} B(i,k)} B(i,j)=k=1nB(i,k)B(i,j)
    b. 列归一化:对矩阵 B B B的每一列进行归一化,使得每列和为1:
    B ( i , j ) = B ( i , j ) ∑ k = 1 n B ( k , j ) B(i,j) = \frac{B(i,j)}{\sum_{k=1}^{n} B(k,j)} B(i,j)=k=1nB(k,j)B(i,j)

  4. 输出:经过足够次数的迭代后,矩阵 B B B接近双随机矩阵。


4.4.3 算法收敛性证明

Sinkhorn-Knopp算法的收敛性可以证明如下:

  1. 单调性:每次行归一化和列归一化后,矩阵与目标双随机矩阵的Kullback-Leibler散度(KL散度)单调递减。

  2. 收敛性:由于矩阵的元素始终为正,且每次归一化后矩阵的行和与列和保持接近1,算法保证了收敛到唯一的双随机矩阵。

  3. 收敛速度:对于大多数实际应用,20次迭代通常足够保证收敛。这是因为每次迭代都使矩阵的行和与列和更接近1,且收敛速度通常是线性的。


4.4.4 为什么需要指数化操作?

在Sinkhorn-Knopp算法中,指数化操作( B = exp ⁡ ( A ) B = \exp(A) B=exp(A))是关键的预处理步骤。原因如下:

  1. 确保正性:虽然原始矩阵 A A A可能包含负值,但双随机矩阵要求所有元素非负。指数化操作确保了 B B B的所有元素为正,为归一化提供基础。

  2. 避免零值:如果 A A A包含零值,直接归一化可能导致除以零错误。指数化操作确保了 B B B的所有元素严格大于零。

  3. 保持信息:指数化操作不会丢失 A A A中的相对信息,只是将值映射到正数域。


4.4.5 为什么需要20次迭代?

20次迭代是经验选择,基于以下考虑:

  1. 收敛速度:对于大多数实际应用,Sinkhorn-Knopp算法在10-20次迭代后已经足够接近双随机矩阵。

  2. 计算成本:20次迭代的计算成本相对较低,不会显著增加训练时间。

  3. 收敛精度:20次迭代通常可以保证矩阵的行和与列和的误差小于 10 − 6 10^{-6} 106


4.4.6 实际应用中的算法实现

在mHC的实现中,Sinkhorn-Knopp算法的伪代码如下:

def sinkhorn_knopp(A, iterations=20):
    # A is an n x n matrix
    B = np.exp(A)  # Ensure all elements are positive
    
    for _ in range(iterations):
        # Row normalization
        B = B / B.sum(axis=1, keepdims=True)
        
        # Column normalization
        B = B / B.sum(axis=0, keepdims=True)
    
    return B

在实际实现中,我们通常使用torchnumpy的向量化操作来高效实现这一算法。


4.4.7 与传统双随机矩阵构造方法的对比

方法 优点 缺点
Sinkhorn-Knopp 简单高效,保证收敛 需要迭代,计算量略高
优化方法 精确解 复杂,计算量大
随机生成 速度快 不保证双随机性

Sinkhorn-Knopp算法在效率和精度之间取得了最佳平衡,是mHC中实现双随机矩阵约束的理想选择。


4.4.8 数学解释:为什么Sinkhorn-Knopp能工作?

从数学角度看,Sinkhorn-Knopp算法是求解以下优化问题的近似解:

min ⁡ H r e s ∈ B D K L ( A ∥ H r e s ) \min_{H_{res} \in \mathcal{B}} D_{KL}(A \| H_{res}) HresBminDKL(AHres)

其中:

  • B \mathcal{B} B是双随机矩阵的集合
  • D K L ( A ∥ H r e s ) D_{KL}(A \| H_{res}) DKL(AHres)是KL散度

KL散度度量了矩阵 A A A H r e s H_{res} Hres之间的差异。Sinkhorn-Knopp算法通过交替行归一化和列归一化,逐步减小KL散度,最终收敛到双随机矩阵。

这一理论基础确保了mHC中双随机矩阵约束的数学严谨性,为模型的稳定性和表达能力提供了坚实的理论支撑。


5. mHC vs. HC:数值稳定性对比

指标 HC mHC
H_res的元素范围 无约束(可正可负) 0~1(双随机约束)
最大放大倍数 可达3000+ 1.0(恒等映射级别)
梯度爆炸风险 极低
训练稳定性
特征表达能力 高(与HC相当)

6. 实测效果:27B模型上的验证

DeepSeek在27B模型上进行了实测:

  • 训练时间增加6.7%(从1000小时到1067小时)
  • 模型性能显著提升
  • 训练过程不再"炸机"(崩溃率大幅下降)

为什么这个"6.7%"的代价是值得的?

在大模型训练中,训练成本以"百万美元"为单位。多花6.7%的训练时间,换来的是模型性能的显著提升和训练的稳定性,这笔账算得非常精。


7. 2025年12月主流思想对比

在2025年12月,大模型训练的主流思想包括:

  1. 模型规模扩展:继续堆叠更多层、增加更多参数
  2. 架构优化:改进Attention机制、MLP结构
  3. 训练稳定性:通过LayerNorm、Residual连接等确保稳定性
  4. 混合专家(MoE):通过稀疏激活提高效率

mHC的创新点在于,它不是在模型规模或架构上做文章,而是在"底层数学公式"上进行优化,解决了一个长期存在的问题——残差连接机制的稳定性与灵活性的平衡。


8. 架构图解析

在这里插入图片描述

mHC的架构可以看作是传统Transformer的"残差流"扩展:

  1. 传统Transformer:只有一条"残差主干线"
  2. mHC:将残差主干线扩展为n条并行的"残差流"

在每一层,这n条流之间可以进行动态混合,通过H_pre、H_post和H_res三个矩阵进行控制。
就是图里标红的这根跨层的折线。图里把res和norm都整一起了
F:这一层的计算(attn / mlp);
xl+1 = xl + F(hl):“把上一层的输出(可以看成原始特征)加回到这一层的输出上”。

在单层水平这么理解是没毛病的。
它可以做扩展:这一股子一股子的残差线,其实是一个流,它叫Residual Stream(残差流):”是把这根线当成一条“贯穿整个网络的通道”

不要只盯一层,而是把“那根做 skip 的线”看成一个贯穿所有层的、连续的“信息通道”。
把所有层给罗起来

在这里插入图片描述

最终是以下式子:
在这里插入图片描述


9. 为什么mHC是"最不性感的路",却可能是"最性感的创新"

在这个AI时代,所有人都在喊着"造神"、“改变世界”、“替代人类”,但DeepSeek选择了一条最不性感的路:去拧紧地基里的一颗螺丝。

mHC不是在模型参数上做文章,不是在训练数据上做文章,而是在最底层的数学公式上做文章。这种脚踏实地理性的光芒,才是最美丽、最珍贵、最值得敬佩的。


10. 经典文献推荐

  1. 《Deep Residual Learning for Image Recognition》 (2015) - He et al.

    • ResNet的开山之作,奠定了现代深度学习的基石
    • 为什么重要:解决了深度神经网络训练中的梯度消失问题
  2. 《Hyper-Connections: A Simple and Effective Approach to Residual Networks》 (2024) - 字节跳动

    • HC的开创性论文,提出了多路残差流的概念
    • 为什么重要:为mHC提供了基础
  3. 《Manifold-Constrained Hyper-Connections》 (2025) - DeepSeek

    • mHC的论文,提出了流形约束的创新
    • 为什么重要:解决了HC的数值不稳定性,让多路残差流真正实用

11. 结语:理性之光,照亮AI未来

2026年,DeepSeek的mHC架构不仅是一个技术突破,更是AI发展史上的一座里程碑。它证明了在AI的狂热时代,最值得敬佩的不是那些"大力出奇迹"的创新,而是那些"回头审视底层公式"的理性思考。

正如文中所说:“在这个全员加速,甚至有点疯狂的AI时代。有太多人喊着要造神,要改变世界,要替代人类。但DeepSeek选择了一条最不性感的路,去拧紧地基里的一颗螺丝。”

期待DeepSeek V4,期待理性的光。


参考链接

  1. DeepSeek官方论文
  2. ResNet原始论文
  3. HC (Hyper-Connections)论文
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐