神经网络 | 从线性结构到可学习非线性
CNN、Transformer、ONN(Operational Neural Network)和KAN

- 2026-5-1:修订和优化内容表达,强化边与节点的表述,以及完善ONN与KAN之间的关联。
传统神经元模型的局限
在过去的十年里,卷积神经网络(CNN)和 Transformer 统治了计算机视觉与自然语言处理领域。尽管它们在宏观架构上千差万别,但在微观的**神经元(Neuron)**层面上,它们共享着几乎相同的数学基因:
激活函数(求和⏟神经元节点上的聚合计算(元素变换⏟边上的逐点计算(数据元素))) \underbrace{\text{激活函数}( \text{求和}}_{神经元节点上的聚合计算}( \underbrace{\text{元素变换}}_{边上的逐点计算}(数据元素) ) ) 神经元节点上的聚合计算
激活函数(求和(边上的逐点计算
元素变换(数据元素)))
一个典型的神经元计算流程是:
- 线性聚合:输入向量 xxx 与权重向量 www 进行点积(∑wixi\sum w_i x_i∑wixi),再加上偏置 bbb。这一步本质上是线性的。
- 非线性激活:线性聚合的结果通过一个预先定义且不可学习的非线性函数 σ(⋅)\sigma(\cdot)σ(⋅)(如 ReLU, GELU, Tanh)。
这种结构计算简单且易于实现,因此得到了广泛应用。但它有一个共同问题:神经元的行为是同质的,只能表示线性关系,非线性能力完全依赖统一的激活函数。这意味着:模型只能通过“增加层数”来提高非线性表达能力,单个神经元的灵活性不足,网络的表示能力在一定程度上受到线性结构的限制。
为了解决这些问题,研究逐渐指向两个方向:
- 重构神经元内部(Intra-neuron):赋予单个神经元更复杂的、可学习的非线性运算能力(代表作:ONN, Self-ONN)。
- 重构神经元连接(Inter-neuron):改变神经元之间的连接与激活方式,打破传统的基于“点积”的元素变换范式(代表作:KAN, KAT)。
下面的内容将循序介绍这些模型的思路,并解释它们之间的联系。
基础回顾
为了理解后续模型为何要“突破线性”,先用简单的方式回顾常规结构。
CNN:同质化的局部线性变换
CNN 的核心是卷积层。对于第 lll 层的第 kkk 个神经元,其输出 xk(l)x_k^{(l)}xk(l) 计算为:xk(l)=σ(bkl+∑iwkil∗xi(l−1))x^{(l)}_k = \sigma \left( b_k^l + \sum_{i} w_{ki}^l * x^{(l-1)}_i \right)xk(l)=σ(bkl+∑iwkil∗xi(l−1))。
- 线性算子:这里的 ∗*∗ 代表卷积操作,本质上是滑动窗口内的局部线性加权求和。
- 同质性:无论卷积核提取的是边缘还是纹理,其运算逻辑永远是“乘法累加”。
- 非线性来源:仅来自于固定的 σ\sigmaσ(如 ReLU)。这意味着如果任务需要拟合一个复杂的频率波动(如 sin(x)\sin(x)sin(x)),CNN 必须用多个 ReLU 片段去折线逼近,效率较低。
Transformer 的 Attention:数据依赖的动态加权
Attention 的非线性本质上是动态路由(Dynamic Routing)或数据依赖的权重生成。Attention 主要解决的是空间维度上的特征混合(Token-mixing/Spatial-mixing),而 Transformer 依然把通道维度上的特征映射(Channel-mixing)交给了传统的 MLP。Attention 已经做得很好了,瓶颈在于传统的 MLP 依然是死板的线性加权。Attention 操作通过矩阵乘法运算实现了并行的元素加权、空间聚合、以及恒等形式的“激活”:
Attention(Q,K,V)=softmax(QKTdk)V \begin{aligned} \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V \end{aligned} Attention(Q,K,V)=softmax(dkQKT)V
- 动态权重:与 CNN 的固定权重 www 不同,Attention 的权重是基于输入的全局内容动态计算。
- 空间混合:Attention 解决了“看哪里”的问题,负责在空间或序列维度上混合信息(Spatial Mixing)。
- 局限:尽管 Attention 机制本身很强大,但 Transformer 中负责特征变换与非线性映射的 MLP 层(Channel Mixing) 依然沿用了传统的“线性变换 + GELU”模式。这也是后续 KAT 试图改进的核心区域。
扩展边计算
KAN和ONN是两种类似的架构。二者的核心革命都在于:赋予“突触(边/连接)”更强大的表达能力,打破线性权重的垄断:
- 反对线性乘法: 传统网络中,数据在“边”上只能和一个标量权重 www 做简单的线性乘法(w⋅xw \cdot xw⋅x)。KAN 和 ONN 都认为这太弱了。
- 非线性前置: 它们都把非线性变换从“节点(聚合与激活)”提前到了“边(元素连接传递)”上。
- 以少胜多: 因为单个连接/神经元的表达能力变强了,它们通常可以用比传统 MLP 更少的参数或更浅的网络层数,去拟合极其复杂的非线性函数。
Operational Neural Networks (ONN):广义运算神经元(Generalized Operational Perceptron, GOP)
ONN 受到生物神经元突触多样性的启发,提出了一种 异质(Heterogeneous) 的网络结构。它将神经元的计算过程解构为三个可定制的算子:
xk(l)=σ(Pkl[Ψk1l(wk1l,y1l−1),… ]) x^{(l)}_k = \sigma \left( P_k^l \left[ \Psi_{k1}^l(w_{k1}^l, y_1^{l-1}), \dots \right] \right) xk(l)=σ(Pkl[Ψk1l(wk1l,y1l−1),…])
- 节点算子 (Nodal Operator, Ψ\PsiΨ):替代了传统的权重乘法。它不仅可以是标量乘积 w⋅yw \cdot yw⋅y,还可以是指数函数 w⋅eyw \cdot e^yw⋅ey、正弦函数 sin(w⋅y)\sin(w \cdot y)sin(w⋅y) 等。这模拟了生物突触复杂的神经化学反应。
- 池化算子 (Pool Operator, PPP):替代了传统的求和。它可以是 nnn-阶相关性聚合、中位数、最大值等非线性聚合方式。
- 激活算子 (Activation Operator, σ\sigmaσ):保留标准激活。
这打破了“线性束缚”,使得单层网络就能拟合极其复杂的函数。但其缺点在于依赖贪婪迭代搜索 (GIS) 从预定义库中寻找算子,计算成本高昂,且难以在大规模数据上训练。
Self-Organized Operational Neural Network (Self-ONN):生成式神经元 (Generative Neurons)
为了解决 ONN 的算子搜索问题,Self-ONN 采用了一个更直接的思路:让网络自己生成非线性函数,而不是从函数库中选择。
- 泰勒级数逼近:Self-ONN 利用泰勒级数原理,将节点算子 Ψ\PsiΨ 参数化为一个多项式:Ψ(y,w)=w1y+w2y2+⋯+wQyQ\Psi(y, \mathbf{w}) = w_1 y + w_2 y^2 + \dots + w_Q y^QΨ(y,w)=w1y+w2y2+⋯+wQyQ
- 权重的升维:在传统网络中,一个连接只有一个权重 www;在 Self-ONN 中,一个连接拥有一组系数 w=[w1,…,wQ]\mathbf{w} = [w_1, \dots, w_Q]w=[w1,…,wQ]。
- 自组织特性:在训练过程中,如果任务只需要线性关系,高阶系数 wq>1w_{q>1}wq>1 会自动趋零;如果需要复杂非线性,这些系数会自动调整以拟合最佳曲线。这使得网络具有了根据数据自我演化的能力。
这表示一个连接的权重从“标量”变为“一组多项式系数”,并且神经元可以学习不同阶的非线性行为。整体不再需要算法搜索,参数梯度下降即可学习。相比 ONN,Self-ONN 的优化方式更自然,也更适合深度学习框架。
Kolmogorov-Arnold Networks (KAN):从节点非线性到边非线性
KAN 选择了一条完全不同的路径。它基于柯尔莫哥洛夫-阿诺德表示定理,对神经网络的拓扑结构进行了数学层面的重构。这个定理说明:多元函数可以通过若干一元函数和加法运算表示。基于这一思想,KAN 将激活函数放在“边”上。
在传统神经网络中,权重在边上(计算乘法),聚合激活在节点上,而KAN 则反过来,边上是非线性函数,节点只做求和。具体的计算公式如下,其中 ϕ\phiϕ 是可学习的一元函数。
xl+1,j=∑iϕl,j,i(xl,i) x_{l+1, j} = \sum_{i} \phi_{l, j, i}(x_{l, i}) xl+1,j=i∑ϕl,j,i(xl,i)
为了让边上的函数 ϕ\phiϕ 既灵活又可导,KAN 引入了B-样条曲线:
ϕ(x)=wb⋅silu(x)+ws⋅spline(x) \phi(x) = w_b \cdot \text{silu}(x) + w_s \cdot \text{spline}(x) ϕ(x)=wb⋅silu(x)+ws⋅spline(x)
B-样条适合逼近函数,其可解释性好、局部控制性强、精度高的优点,但是问题也很明显,例如递归计算结构难以 GPU 并行、训练速度慢、难以扩展到深度网络或大规模任务。KAN 在科学计算和公式拟合任务表现优秀,但在大型深度学习任务上受限不少。
Kolmogorov-Arnold Transformer (KAT):为大规模模型设计的高效 KAN
KAT的目标是将 KAN 的非线性优势引入到 Transformer 这种大规模架构中,同时解决 KAN 的效率痛点。
具体而言,它采用了两项关键改进。
- 有理函数替代样条:KAT 放弃了分段的 B-样条,改用有理函数(Rational Functions)(有理函数在数学上属于 Padé 逼近(Padé approximant) 的变体),相较 B-样条,其计算只包含加、减、乘、除,同时完全支持 GPU 并行,可以在深度网络中更易稳定训练。这种改动显著提高了速度,同时保留了足够的表达能力:ϕ(x)=P(x)Q(x)=∑aixi1+∣∑bjxj∣\phi(x) = \frac{P(x)}{Q(x)} = \frac{\sum a_i x^i}{1 + |\sum b_j x^j|}ϕ(x)=Q(x)P(x)=1+∣∑bjxj∣∑aixi
- 分组共享 (Group-KAN):KAT 将输入通道划分为多个组,每一组共享相同的非线性函数形状。这可以大幅减少参数、降低计算量,并且也更适合 Transformer 的高维输入。
经过优化,KAT 中的 GR-KAN 层可以写成我们熟悉的矩阵形式:
GR-KAN(x)=W⋅Frational(x)\text{GR-KAN}(x) = W \cdot F_{\text{rational}}(x)GR-KAN(x)=W⋅Frational(x)
这里 FrationalF_{\text{rational}}Frational 是可学习的有理激活函数。这意味着 KAT 实际上变成了一个 “激活函数可学习且前置”的MLP。这种设计既保留了 KAN 的精髓,又完全兼容现有的深度学习硬件加速。
KAT 和传统 MLP 的接口相同,其可以直接替换 Transformer 中的MLP,从而与Attention的组合结构兼具 KAN 的灵活性和 Transformer 的高效性。
Self-ONN 与 KAT 的共同思想:殊途同归的演进
当我们审视 KAT 的最终形态时,会发现一个极其有趣的现象:从 KAN 进化而来的 KAT,在某种程度上是 Self-ONN 思想在现代大模型时代的复兴与升华。虽然它们起源于不同的理论(ONN 源自广义操作感知机,KAN 源自柯尔莫哥洛夫-阿诺德定理),但它们在解决复杂性和效率的矛盾时,得出了高度一致的结论:
数学逼近的对仗:从“局部样条”回归“全局函数”
KAN 最大的卖点是局部控制性极强的 B-样条(B-Splines),但这在 GPU 上非常不友好。
- Self-ONN 利用 泰勒级数(Taylor Series) 多项式来全局逼近非线性。
- KAT 利用 有理函数(基于 Padé 逼近) 来全局逼近非线性。
两者都放弃了分段式的几何插值,转而采用了更适合张量运算的代数方程(多项式或分式)。KAT 的有理函数甚至可以看作是 Self-ONN 泰勒多项式的一种进阶版,因为有理函数在处理极点和渐近线时,比单纯的多项式具有更强的表达能力。
架构落地的必然妥协:从“绝对异质”到“分组同质”
在理论上,最理想的状态是“绝对异质”的,即 ONN 和早期的 KAN 都希望网络中的每一条边都拥有完全不同的非线性函数。然而,这种计算复杂度(O(N2)O(N^2)O(N2))是现代硬件无法承受的。
- Self-ONN 虽然可以展开多项式,但本质上还是通过标准的线性组合来汇总特征。
- KAT 的分组共享形式,强制一组通道共享同一套有理函数参数。
这意味着它们都做出了工程妥协:放弃了每条边绝对独立的设计,转而采用“特征在通道层面进行参数化非线性展开 →\rightarrow→ 再通过传统权重矩阵进行线性混合”的范式。
生成式激活:让网络自己“捏”出非线性
无论是 Self-ONN 学习多项式系数 w=[w1,…,wQ]\mathbf{w} = [w_1, \dots, w_Q]w=[w1,…,wQ],还是 KAT 学习有理分式中的分子分母系数 (ai,bj)(a_i, b_j)(ai,bj),它们都摆脱了“从固定库中选择函数(如早期的搜索型 ONN)”或“使用预设的死板函数(如 ReLU)”的限制。它们通过梯度下降,直接在数据流动的过程中“捏”出最适合当前任务的激活函数曲线,实现了真正的激活函数参数化生成。
数学等效性:高阶前置的广义 MLP
KAT 与 Self-ONN 的底层计算图惊人地一致:它们都是先用一个复杂的可学习函数 F(x)F(x)F(x) 对输入特征进行逐元素(Element-wise)的高维非线性展开,然后再用一个标准的矩阵 WWW 做线性聚合。
此时,边上的计算和节点上的计算界限已经被打破,它们实际上都演变成了一种**“激活函数可学习且前置”的高阶广义 MLP**。
小结
如果说 KAN 提供了理论指引(把计算压力转移到边上),那么 Self-ONN 早就暗示了工程上可行的方向(用代数级数拟合函数)。而 KAT 则是这两中方案的交汇:利用现代 GPU 友好的有理函数,结合分组机制,成功将“可学习非线性”这一理念,真正推向了 Transformer 中的应用。
整体来看,神经网络的发展正在从 所有神经元使用相同结构 逐步转向 允许神经元或连接具备可学习的非线性。这使得模型具有更高的表达能力,同时不必依赖过深的网络堆叠。
更多推荐
所有评论(0)