在这里插入图片描述

  • 2026-5-1:修订和优化内容表达,强化边与节点的表述,以及完善ONN与KAN之间的关联。
  • 2026-6-2:补充 KAN 原论文中的网格扩展、可解释化思路,并加入 rKAN、FC-KAN 与 KAT 等扩展工作。

传统神经元模型的局限

在过去的十年里,卷积神经网络(CNN)和 Transformer 统治了计算机视觉与自然语言处理领域。尽管它们在宏观架构上千差万别,但在微观的**神经元(Neuron)**层面上,它们共享着几乎相同的数学基因:
激活函数 ( 求和 ⏟ 神经元节点上的聚合计算 ( 元素变换 ⏟ 边上的逐点计算 ( 数据元素 ) ) ) \underbrace{\text{激活函数}( \text{求和}}_{神经元节点上的聚合计算}( \underbrace{\text{元素变换}}_{边上的逐点计算}(数据元素) ) ) 神经元节点上的聚合计算 激活函数(求和(边上的逐点计算 元素变换(数据元素)))

一个典型的神经元计算流程是:

  1. 线性聚合:输入向量 x x x 与权重向量 w w w 进行点积( ∑ w i x i \sum w_i x_i wixi),再加上偏置 b b b。这一步本质上是线性的。
  2. 非线性激活:线性聚合的结果通过一个预先定义且不可学习的非线性函数 σ ( ⋅ ) \sigma(\cdot) σ()(如 ReLU, GELU, Tanh)。

这种结构计算简单且易于实现,因此得到了广泛应用。但它有一个共同问题:神经元的行为是同质的,只能表示线性关系,非线性能力完全依赖统一的激活函数。这意味着:模型只能通过“增加层数”来提高非线性表达能力,单个神经元的灵活性不足,网络的表示能力在一定程度上受到线性结构的限制。

为了解决这些问题,研究逐渐指向两个方向:

  1. 重构神经元内部(Intra-neuron):赋予单个神经元更复杂的、可学习的非线性运算能力(代表作:ONN, Self-ONN)。
  2. 重构神经元连接(Inter-neuron):改变神经元之间的连接与激活方式,打破传统的基于“点积”的元素变换范式(代表作:KAN, KAT)。

下面的内容将循序介绍这些模型的思路,并解释它们之间的联系。

基础回顾

为了理解后续模型为何要“突破线性”,先用简单的方式回顾常规结构。

CNN:同质化的局部线性变换

CNN 的核心是卷积层。对于第 l l l 层的第 k k k 个神经元,其输出 x k ( l ) x_k^{(l)} xk(l) 计算为: x k ( l ) = σ ( b k l + ∑ i w k i l ∗ x i ( l − 1 ) ) x^{(l)}_k = \sigma \left( b_k^l + \sum_{i} w_{ki}^l * x^{(l-1)}_i \right) xk(l)=σ(bkl+iwkilxi(l1))

  • 线性算子:这里的 ∗ * 代表卷积操作,本质上是滑动窗口内的局部线性加权求和
  • 同质性:无论卷积核提取的是边缘还是纹理,其运算逻辑永远是“乘法累加”。
  • 非线性来源:仅来自于固定的 σ \sigma σ(如 ReLU)。这意味着如果任务需要拟合一个复杂的频率波动(如 sin ⁡ ( x ) \sin(x) sin(x)),CNN 必须用多个 ReLU 片段去折线逼近,效率较低。

Transformer 的 Attention:数据依赖的动态加权

Attention 的非线性本质上是动态路由(Dynamic Routing)或数据依赖的权重生成。Attention 主要解决的是空间维度上的特征混合(Token-mixing/Spatial-mixing),而 Transformer 依然把通道维度上的特征映射(Channel-mixing)交给了传统的 MLP。Attention 已经做得很好了,瓶颈在于传统的 MLP 依然是死板的线性加权。Attention 操作通过矩阵乘法运算实现了并行的元素加权、空间聚合、以及恒等形式的“激活”:
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \begin{aligned} \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V \end{aligned} Attention(Q,K,V)=softmax(dk QKT)V

  • 动态权重:与 CNN 的固定权重 w w w 不同,Attention 的权重是基于输入的全局内容动态计算。
  • 空间混合:Attention 解决了“看哪里”的问题,负责在空间或序列维度上混合信息(Spatial Mixing)。
  • 局限:尽管 Attention 机制本身很强大,但 Transformer 中负责特征变换与非线性映射的 MLP 层(Channel Mixing) 依然沿用了传统的“线性变换 + GELU”模式。这也是后续 KAT 试图改进的核心区域。

扩展边计算

KAN 和 ONN 是两种类似的架构。二者的核心革命都在于:赋予“突触(边/连接)”更强大的表达能力,打破线性权重的垄断:

  • 反对线性乘法: 传统网络中,数据在“边”上只能和一个标量权重 w w w 做简单的线性乘法( w ⋅ x w \cdot x wx)。KAN 和 ONN 都认为这太弱了。
  • 非线性前置: 它们都把非线性变换从“节点(聚合与激活)”提前到了“边(元素连接传递)”上。
  • 以少胜多: 因为单个连接/神经元的表达能力变强了,它们通常可以用比传统 MLP 更少的参数或更浅的网络层数,去拟合极其复杂的非线性函数。

Operational Neural Networks (ONN):广义运算神经元(Generalized Operational Perceptron, GOP)

ONN 受到生物神经元突触多样性的启发,提出了一种 异质(Heterogeneous) 的网络结构。它将神经元的计算过程解构为三个可定制的算子:
x k ( l ) = σ ( P k l [ Ψ k 1 l ( w k 1 l , y 1 l − 1 ) , …   ] ) x^{(l)}_k = \sigma \left( P_k^l \left[ \Psi_{k1}^l(w_{k1}^l, y_1^{l-1}), \dots \right] \right) xk(l)=σ(Pkl[Ψk1l(wk1l,y1l1),])

  1. 节点算子 (Nodal Operator, Ψ \Psi Ψ):替代了传统的权重乘法。它不仅可以是标量乘积 w ⋅ y w \cdot y wy,还可以是指数函数 w ⋅ e y w \cdot e^y wey、正弦函数 sin ⁡ ( w ⋅ y ) \sin(w \cdot y) sin(wy) 等。这模拟了生物突触复杂的神经化学反应。
  2. 池化算子 (Pool Operator, P P P):替代了传统的求和。它可以是 n n n-阶相关性聚合、中位数、最大值等非线性聚合方式。
  3. 激活算子 (Activation Operator, σ \sigma σ):保留标准激活。

这打破了“线性束缚”,使得单层网络就能拟合极其复杂的函数。但其缺点在于依赖贪婪迭代搜索 (GIS) 从预定义库中寻找算子,计算成本高昂,且难以在大规模数据上训练。后续用于图像去噪的 ONN 工作 Operational vs Convolutional Neural Networks for Image Denoising 又引入了 Synaptic Plasticity Monitoring (SPM),即根据突触权重在训练中的变化来选择更合适的非线性算子。它的动机很直接:如果某类连接在学习过程中变化剧烈,说明该位置可能需要更强的非线性操作,而不是继续使用固定的卷积乘法。不过这里也暗示了 ONN 的优势依赖算子库和搜索策略,一旦合适的算子不在库中,模型本身并不能凭空生成新的连接函数。

Self-Organized Operational Neural Network (Self-ONN):生成式神经元 (Generative Neurons)

为了解决 ONN 的算子搜索问题,Self-ONN 采用了一个更直接的思路:让网络自己生成非线性函数,而不是从函数库中选择。

  • 泰勒级数逼近:Self-ONN 利用泰勒级数原理,将节点算子 Ψ \Psi Ψ 参数化为一个多项式: Ψ ( y , w ) = w 1 y + w 2 y 2 + ⋯ + w Q y Q \Psi(y, \mathbf{w}) = w_1 y + w_2 y^2 + \dots + w_Q y^Q Ψ(y,w)=w1y+w2y2++wQyQ
  • 权重的升维:在传统网络中,一个连接只有一个权重 w w w;在 Self-ONN 中,一个连接拥有一组系数 w = [ w 1 , … , w Q ] \mathbf{w} = [w_1, \dots, w_Q] w=[w1,,wQ]
  • 自组织特性:在训练过程中,如果任务只需要线性关系,高阶系数 w q > 1 w_{q>1} wq>1 会自动趋零;如果需要复杂非线性,这些系数会自动调整以拟合最佳曲线。这使得网络具有了根据数据自我演化的能力。

这表示一个连接的权重从“标量”变为“一组多项式系数”,并且神经元可以学习不同阶的非线性行为。整体不再需要算法搜索,参数梯度下降即可学习。相比 ONN,Self-ONN 的优化方式更自然,也更适合深度学习框架。

Self-ONN 并不是强行让每条连接都复杂化,而是把“是否需要复杂非线性”交给数据和梯度来决定。Self-ONN 原论文在图像去噪、图像合成、人脸分割和图像变换任务中使用更紧凑的网络进行对比,作者报告 Self-ONN 在多数设置下比 CNN 和搜索型 ONN 更高效,但也承认当 ONN 库里的某个传统算子正好接近最优时,Self-ONN 的泰勒近似不一定能超过它。

Kolmogorov-Arnold Networks (KAN):从节点非线性到边非线性

KAN 选择了一条完全不同的路径。它基于柯尔莫哥洛夫-阿诺德表示定理,对神经网络的拓扑结构进行了数学层面的重构。这个定理说明:多元函数可以通过若干一元函数和加法运算表示。基于这一思想,KAN 将激活函数放在“边”上。

在传统神经网络中,权重在边上(计算乘法),聚合激活在节点上,而 KAN 则反过来,边上是非线性函数,节点只做求和。具体的计算公式如下,其中 ϕ \phi ϕ 是可学习的一元函数。
x l + 1 , j = ∑ i ϕ l , j , i ( x l , i ) x_{l+1, j} = \sum_{i} \phi_{l, j, i}(x_{l, i}) xl+1,j=iϕl,j,i(xl,i)

为了让边上的函数 ϕ \phi ϕ 既灵活又可导,KAN 引入了 B-样条曲线:
ϕ ( x ) = w b ⋅ silu ( x ) + w s ⋅ spline ( x ) \phi(x) = w_b \cdot \text{silu}(x) + w_s \cdot \text{spline}(x) ϕ(x)=wbsilu(x)+wsspline(x)

B-样条适合逼近函数,其可解释性好、局部控制性强、精度高的优点,但是问题也很明显,例如递归计算结构难以 GPU 并行、训练速度慢、难以扩展到深度网络或大规模任务。KAN 在科学计算和公式拟合任务表现优秀,但在大型深度学习任务上受限不少。

KAN 原论文还强调了两点容易被忽略的能力。

  1. 网格扩展(Grid Extension)。B-样条由网格上的控制点参数化,网格越细,边函数的局部细节越丰富。KAN 的思路不是一开始就用很细的网格硬训,而是先在粗网格上学习函数的大形状,再把已有样条插值到更细的网格上继续训练。直观地看,这相当于先学低频结构,再补高频细节。因此,KAN 在函数拟合任务中常被描述为具有较好的精度扩展能力。
  2. 可解释化流程。由于每条边都是一元函数 ϕ l , j , i ( x ) \phi_{l,j,i}(x) ϕl,j,i(x),它可以被直接画出来,进而进行剪枝、符号化和人工交互。KAN 原论文中的可解释性并不是“模型天然会解释自己”,而是指边函数比 MLP 中的高维权重矩阵更容易被人检查。例如,当某条边函数接近 sin ⁡ ( x ) \sin(x) sin(x) x 2 x^2 x2 或某个简单组合时,研究者可以尝试用符号函数替换样条曲线,从而把一部分神经网络重新压缩成可读公式。这个优势主要出现在小规模科学任务和符号发现任务中,不应直接外推到大规模视觉或语言模型。

KAN 的基础设定也带来了一个参数问题。对于一层输入维度 d in d_{\text{in}} din、输出维度 d out d_{\text{out}} dout 的 KAN,如果每个输入输出对都有一条独立样条边,那么边函数数量就是 d in d out d_{\text{in}} d_{\text{out}} dindout。每条边还要带上样条系数,因此参数量和计算量都会随着网格规模一起上升。这也是后续 rKAN、FC-KAN 和 KAT 都试图改造“边函数形式”的根本原因。

Kolmogorov-Arnold Transformer (KAT):为大规模模型设计的高效 KAN

KAT 的目标是将 KAN 的非线性优势引入到 Transformer 这种大规模架构中,同时解决 KAN 的效率痛点。

具体而言,它采用了两项关键改进。

  1. 有理函数替代样条:KAT 放弃了分段的 B-样条,改用有理函数(Rational Functions)(有理函数在数学上属于 Padé 逼近(Padé approximant) 的变体),相较 B-样条,其计算只包含加、减、乘、除,同时完全支持 GPU 并行,可以在深度网络中更易稳定训练。这种改动显著提高了速度,同时保留了足够的表达能力:
    ϕ ( x ) = P ( x ) Q ( x ) = ∑ a i x i 1 + ∣ ∑ b j x j ∣ \phi(x) = \frac{P(x)}{Q(x)} = \frac{\sum a_i x^i}{1 + |\sum b_j x^j|} ϕ(x)=Q(x)P(x)=1+bjxjaixi
  2. 分组共享 (Group-KAN):KAT 将输入通道划分为多个组,每一组共享相同的非线性函数形状。这可以大幅减少参数、降低计算量,并且也更适合 Transformer 的高维输入。

经过优化,KAT 中的 GR-KAN 层可以写成我们熟悉的矩阵形式:
GR-KAN ( x ) = W ⋅ F rational ( x ) \text{GR-KAN}(x) = W \cdot F_{\text{rational}}(x) GR-KAN(x)=WFrational(x)
这里 F rational F_{\text{rational}} Frational 是可学习的有理激活函数。这意味着 KAT 实际上变成了一个 “激活函数可学习且前置”的 MLP。这种设计既保留了 KAN 的精髓,又完全兼容现有的深度学习硬件加速。

KAT 和传统 MLP 的接口相同,其可以直接替换 Transformer 中的 MLP,从而与 Attention 的组合结构兼具 KAN 的灵活性和 Transformer 的高效性。

KAT 论文把原始 KAN 难以放进 Transformer 的原因拆成三个部分。

  1. 基函数不适合 GPU:B-样条需要局部递归计算,不像 ReLU、GELU 或多项式那样天然适合大规模张量并行。
  2. 参数和计算冗余:原始 KAN 为每个输入输出通道对学习独立函数,宽度一大,边函数数量会迅速膨胀。
  3. 初始化不稳定:KAN 的边函数是可学习函数,直接套用 MLP 的初始化思路,不能保证深层传播中的方差稳定。

因此,KAT 不是简单把 Transformer 中的 MLP 改为 KAN,而是提出 Group-Rational KAN(GR-KAN)。它保持 Transformer 的残差结构和注意力层不变,只把通道混合部分替换
x ℓ = MLP ⁡ ( LN ⁡ ( x 0 ( ℓ ) ) ) + x 0 ( ℓ ) ⇒ x ℓ = KAN ⁡ ( LN ⁡ ( x 0 ( ℓ ) ) ) + x 0 ( ℓ ) \mathbf{x}_{\ell} = \operatorname{MLP}(\operatorname{LN}(\mathbf{x}_{0}^{(\ell)})) + \mathbf{x}_{0}^{(\ell)} \Rightarrow \mathbf{x}_{\ell} = \operatorname{KAN}(\operatorname{LN}(\mathbf{x}_{0}^{(\ell)})) + \mathbf{x}_{0}^{(\ell)} x=MLP(LN(x0()))+x0()x=KAN(LN(x0()))+x0()

其中真正起作用的是可学习有理函数、分组共享和方差保持初始化三者的组合。

KAT 在 ImageNet-1K、COCO 检测和 ADE20K 分割实验中报告了相对 ViT/DeiT 基线的提升,但它同时指出,即便有 CUDA 优化,有理函数仍然比普通 GELU、ReLU 更慢。因此 KAT 的定位更像是“用可学习前置激活增强 MLP”,而不是保持原始 KAN 每条边完全独立的形态。

Rational Kolmogorov-Arnold Networks (rKAN):把边函数改写成有理基展开

rKAN 的切入点和 KAT 很接近,都是反思 B-样条是否一定是 KAN 的最佳基函数。B-样条适合局部控制,但在实现复杂度、平滑性和大规模训练方面并不总是方便。为了延续 KAN 的“边上是一元函数”这一设定,rKAN 可以写成:
x l + 1 , j = ∑ i ϕ l , j , i ( x l , i ) , ϕ l , j , i ( x ) = R l , j , i ( x ) x_{l+1,j} = \sum_i \phi_{l,j,i}(x_{l,i}), \quad \phi_{l,j,i}(x) = R_{l,j,i}(x) xl+1,j=iϕl,j,i(xl,i),ϕl,j,i(x)=Rl,j,i(x)

其中 R l , j , i ( x ) R_{l,j,i}(x) Rl,j,i(x) 不再是 B-样条,而是有理基函数。最朴素的有理逼近可以写成两个多项式的比值:
R ( x ) = P ( x ) Q ( x ) = ∑ m = 0 M a m x m ∑ n = 0 N b n x n R(x) = \frac{P(x)}{Q(x)} = \frac{\sum_{m=0}^{M} a_m x^m} {\sum_{n=0}^{N} b_n x^n} R(x)=Q(x)P(x)=n=0Nbnxnm=0Mamxm

但 rKAN 不是简单地把分子分母写成普通幂函数。它更接近数值分析里的谱逼近思路,把 Jacobi 多项式或有理 Jacobi 函数作为基函数。Padé-rKAN 的边函数可以写成:
ϕ q , k ( ξ ) = ∑ i θ i e R i ( α , β ) ( ξ q ) ∑ i θ i d R i ( α , β ) ( ξ q ) \phi_{q,k}(\boldsymbol{\xi}) = \frac{ \sum_i \theta_i^e \mathcal{R}_i^{(\alpha,\beta)} (\boldsymbol{\xi}_q) }{ \sum_i \theta_i^d \mathcal{R}_i^{(\alpha,\beta)}(\boldsymbol{\xi}_q) } ϕq,k(ξ)=iθidRi(α,β)(ξq)iθieRi(α,β)(ξq)

这里 R i ( α , β ) \mathcal{R}_i^{(\alpha,\beta)} Ri(α,β) 表示由 Jacobi 多项式或其映射形式构造出的基函数, θ i e \theta_i^e θie θ i d \theta_i^d θid 分别是分子、分母上的可学习系数。另一条路线是 rational Jacobi functions,通过有理映射把原本定义在有限区间上的 Jacobi 函数扩展到半无限或无限定义域。这样做的数学动机是增强对渐近行为、尖峰变化和奇异结构的表达能力。

这和 KAT 的有理函数方案有明显区别。KAT 使用的是 Safe Padé Activation Unit:
F ( x ) = a 0 + a 1 x + ⋯ + a m x m 1 + ∣ b 1 x + ⋯ + b n x n ∣ F(x) = \frac{a_0+a_1x+\cdots+a_mx^m} {1+\left|b_1x+\cdots+b_nx^n\right|} F(x)=1+b1x++bnxna0+a1x++amxm

它的分母被设计成 1 + ∣ ⋅ ∣ 1+|\cdot| 1+,目的是避免 Q ( x ) = 0 Q(x)=0 Q(x)=0 导致的极点爆炸,让深层 Transformer 更稳定。因此,KAT 的有理函数更像“安全的可学习前置激活”;rKAN 的有理函数更像“保留 KAN 边函数身份的谱基展开”。前者强调深层网络稳定和 GPU 友好,后者强调函数逼近能力,尤其是对物理问题、渐近函数和复杂曲线的适配。

rKAN 在回归、MNIST 分类以及物理信息任务中进行了验证,论文报告它在部分任务上能取得更高精度,但 Padé-rKAN 需要同时计算两个加权基函数展开,训练时间复杂度也会上升。

FC-KAN:从单一基函数走向函数组合

如果说 rKAN 和 KAT 关注“用什么函数替代样条”,那么 FC-KAN 关注的是“能不能让多种函数协同工作”。它不只选一个基函数,而是让输入分别经过多种 KAN 分支,例如 B-样条、径向基函数(Radial Basis Function, RBF)、Derivative of Gaussian(DoG)或线性变换,然后在低维输出空间做组合:
o i = f i ( x ) = ( f i , L − 1 ∘ f i , L − 2 ∘ ⋯ ∘ f i , 0 ) ( x ) \mathbf{o}_i = f_i(\mathbf{x}) = (f_{i,L-1}\circ f_{i,L-2}\circ \cdots \circ f_{i,0})(\mathbf{x}) oi=fi(x)=(fi,L1fi,L2fi,0)(x)

得到 o 1 , o 2 , … , o n \mathbf{o}_1,\mathbf{o}_2,\dots,\mathbf{o}_n o1,o2,,on 后,FC-KAN 进一步比较求和、逐元素乘积、求和加乘积、二次函数、三次函数、拼接、线性拼接、最大值、最小值和平均值等组合方式。它有一个重要工程判断:高维张量上的乘法组合很容易带来显存和时间问题,所以复杂组合应尽量放到低维输出层。

在 MNIST 和 Fashion-MNIST 的五次独立训练平均结果中,论文报告 FC-KAN 的若干组合优于 MLP、EfficientKAN、FastKAN、FasterKAN 和 BSRBF-KAN。特别是 DoG+B-样条、B-样条+线性变换的二次组合表现较好。不过,这个结果也有明显边界:它的训练时间通常更长,而且三次组合没有带来预期收益,说明“更高阶”并不自动等于“更好”。这和 Self-ONN 的经验是一致的,非线性扩展必须被计算代价和任务结构约束住。

数学逼近的对仗:从“局部样条”回归“全局函数”

KAN 最大的卖点是局部控制性极强的 B-样条(B-Splines),但这在 GPU 上非常不友好。

  • Self-ONN 利用 泰勒级数(Taylor Series) 多项式来全局逼近非线性。
  • KAT 利用 有理函数(基于 Padé 逼近) 来全局逼近非线性。

两者都放弃了分段式的几何插值,转而采用了更适合张量运算的代数方程(多项式或分式)。KAT 的有理函数甚至可以看作是 Self-ONN 泰勒多项式的一种进阶版,因为有理函数在处理极点和渐近线时,比单纯的多项式具有更强的表达能力。

架构落地的必然妥协:从“绝对异质”到“分组同质”

在理论上,最理想的状态是“绝对异质”的,即 ONN 和早期的 KAN 都希望网络中的每一条边都拥有完全不同的非线性函数。然而,这种计算复杂度( O ( N 2 ) O(N^2) O(N2))是现代硬件无法承受的。

  • Self-ONN 虽然可以展开多项式,但本质上还是通过标准的线性组合来汇总特征。
  • KAT 的分组共享形式,强制一组通道共享同一套有理函数参数。

这意味着它们都做出了工程妥协:放弃了每条边绝对独立的设计,转而采用“特征在通道层面进行参数化非线性展开 → \rightarrow 再通过传统权重矩阵进行线性混合”的范式。

生成式激活:让网络自己“捏”出非线性

无论是 Self-ONN 学习多项式系数 w = [ w 1 , … , w Q ] \mathbf{w} = [w_1, \dots, w_Q] w=[w1,,wQ],还是 KAT 学习有理分式中的分子分母系数 ( a i , b j ) (a_i, b_j) (ai,bj),它们都摆脱了“从固定库中选择函数(如早期的搜索型 ONN)”或“使用预设的死板函数(如 ReLU)”的限制。它们通过梯度下降,直接在数据流动的过程中“捏”出最适合当前任务的激活函数曲线,实现了真正的激活函数参数化生成

FC-KAN 中的 ONN 影子:从异质算子到函数组合

FC-KAN 虽然仍然属于 KAN 的扩展,但它的设计里确实能看到 ONN 系列架构的影子。ONN 的核心直觉是:传统神经元里的 w ⋅ x w \cdot x wx 太单一,应该允许连接或节点使用不同的非线性算子。FC-KAN 做的事情很相似,只是它没有像 ONN 那样把神经元拆成 nodal operator、pool operator 和 activation operator,也没有像 Self-ONN 那样让每条连接都学习一个泰勒多项式算子。它保留 KAN 的“边函数 + 节点求和”框架,然后让输入分别经过 B-样条、RBF、DoG 或线性变换等不同函数分支,最后在低维输出空间做组合。

换句话说,ONN 的异质性发生在神经元内部,Self-ONN 的异质性发生在每个核连接的节点算子上,而 FC-KAN 的异质性发生在多个 KAN 函数分支之间。它不是 ONN,但它把 ONN 系列“多算子协同”的思路移植到了 KAN 的边函数体系里:
ONN/Self-ONN : y → Ψ ( y , w ) FC-KAN : x → { f 1 ( x ) , f 2 ( x ) , … , f n ( x ) } → C ( o 1 , o 2 , … , o n ) \text{ONN/Self-ONN}: \quad y \rightarrow \Psi(y,\mathbf{w}) \\ \text{FC-KAN}: \quad \mathbf{x} \rightarrow \{f_1(\mathbf{x}), f_2(\mathbf{x}), \dots, f_n(\mathbf{x})\} \rightarrow C(\mathbf{o}_1,\mathbf{o}_2,\dots,\mathbf{o}_n) ONN/Self-ONN:yΨ(y,w)FC-KAN:x{f1(x),f2(x),,fn(x)}C(o1,o2,,on)

其中 C ( ⋅ ) C(\cdot) C() 可以是求和、逐元素乘积、二次组合或其他低维融合方式。

这个区别很关键:FC-KAN 不是把每条边都变成任意算子,而是在函数分支层面增加异质性,再用低维组合控制计算成本。因此,它更像是 KAN 版本的“函数组合型 Self-ONN”,而不是完整复刻 ONN 的神经元定义。

数学等效性:高阶前置的广义 MLP

KAT 与 Self-ONN 的底层计算图惊人地一致:它们都是先用一个复杂的可学习函数 F ( x ) F(x) F(x) 对输入特征进行逐元素(Element-wise)的高维非线性展开,然后再用一个标准的矩阵 W W W 做线性聚合。FC-KAN 的形式稍有不同,它先并行得到多个函数分支的输出,再用组合函数 C ( ⋅ ) C(\cdot) C() 汇总这些输出,但它的目的仍然是让固定线性映射之前出现更丰富的非线性表达。此时,边上的计算和节点上的计算界限已经被打破,它们实际上都演变成一种高阶广义 MLP:先用可学习函数扩展输入,再用更简单的线性或低维组合完成汇总。

小结

如果说 KAN 提供了理论指引(把计算压力转移到边上),那么 Self-ONN 早就暗示了工程上可行的方向(用代数级数拟合函数)。FC-KAN 则把 ONN 的多算子协同直觉转译成 KAN 的函数分支组合,而 KAT 进一步利用现代 GPU 友好的有理函数和分组机制,将“可学习非线性”这一理念推向 Transformer 中的应用。

整体来看,神经网络的发展正在从 所有神经元使用相同结构 逐步转向 允许神经元或连接具备可学习的非线性。这使得模型具有更高的表达能力,同时不必依赖过深的网络堆叠。

参考论文与作者信息

论文标题 作者
Operational Neural Networks Serkan Kiranyaz, Turker Ince, Alexandros Iosifidis, Moncef Gabbouj
Operational vs Convolutional Neural Networks for Image Denoising Junaid Malik, Serkan Kiranyaz, Moncef Gabbouj
Self-Organized Operational Neural Networks with Generative Neurons Serkan Kiranyaz, Junaid Malik, Habib Ben Abdallah, Turker Ince, Alexandros Iosifidis, Moncef Gabbouj
KAN: Kolmogorov-Arnold Networks Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark
rKAN: Rational Kolmogorov-Arnold Networks Alireza Afzal Aghaei
Kolmogorov-Arnold Transformer Xingyi Yang, Xinchao Wang
FC-KAN: Function Combinations in Kolmogorov-Arnold Networks Hoang-Thang Ta, Duy-Quy Thai, Abu Bakar Siddiqur Rahman, Grigori Sidorov, Alexander Gelbukh
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐