神经网络 | 从线性结构到可学习非线性
CNN、Transformer、ONN(Operational Neural Network)和KAN

- 2026-5-1:修订和优化内容表达,强化边与节点的表述,以及完善ONN与KAN之间的关联。
- 2026-6-2:补充 KAN 原论文中的网格扩展、可解释化思路,并加入 rKAN、FC-KAN 与 KAT 等扩展工作。
传统神经元模型的局限
在过去的十年里,卷积神经网络(CNN)和 Transformer 统治了计算机视觉与自然语言处理领域。尽管它们在宏观架构上千差万别,但在微观的**神经元(Neuron)**层面上,它们共享着几乎相同的数学基因:
激活函数 ( 求和 ⏟ 神经元节点上的聚合计算 ( 元素变换 ⏟ 边上的逐点计算 ( 数据元素 ) ) ) \underbrace{\text{激活函数}( \text{求和}}_{神经元节点上的聚合计算}( \underbrace{\text{元素变换}}_{边上的逐点计算}(数据元素) ) ) 神经元节点上的聚合计算
激活函数(求和(边上的逐点计算
元素变换(数据元素)))
一个典型的神经元计算流程是:
- 线性聚合:输入向量 x x x 与权重向量 w w w 进行点积( ∑ w i x i \sum w_i x_i ∑wixi),再加上偏置 b b b。这一步本质上是线性的。
- 非线性激活:线性聚合的结果通过一个预先定义且不可学习的非线性函数 σ ( ⋅ ) \sigma(\cdot) σ(⋅)(如 ReLU, GELU, Tanh)。
这种结构计算简单且易于实现,因此得到了广泛应用。但它有一个共同问题:神经元的行为是同质的,只能表示线性关系,非线性能力完全依赖统一的激活函数。这意味着:模型只能通过“增加层数”来提高非线性表达能力,单个神经元的灵活性不足,网络的表示能力在一定程度上受到线性结构的限制。
为了解决这些问题,研究逐渐指向两个方向:
- 重构神经元内部(Intra-neuron):赋予单个神经元更复杂的、可学习的非线性运算能力(代表作:ONN, Self-ONN)。
- 重构神经元连接(Inter-neuron):改变神经元之间的连接与激活方式,打破传统的基于“点积”的元素变换范式(代表作:KAN, KAT)。
下面的内容将循序介绍这些模型的思路,并解释它们之间的联系。
基础回顾
为了理解后续模型为何要“突破线性”,先用简单的方式回顾常规结构。
CNN:同质化的局部线性变换
CNN 的核心是卷积层。对于第 l l l 层的第 k k k 个神经元,其输出 x k ( l ) x_k^{(l)} xk(l) 计算为: x k ( l ) = σ ( b k l + ∑ i w k i l ∗ x i ( l − 1 ) ) x^{(l)}_k = \sigma \left( b_k^l + \sum_{i} w_{ki}^l * x^{(l-1)}_i \right) xk(l)=σ(bkl+∑iwkil∗xi(l−1))。
- 线性算子:这里的 ∗ * ∗ 代表卷积操作,本质上是滑动窗口内的局部线性加权求和。
- 同质性:无论卷积核提取的是边缘还是纹理,其运算逻辑永远是“乘法累加”。
- 非线性来源:仅来自于固定的 σ \sigma σ(如 ReLU)。这意味着如果任务需要拟合一个复杂的频率波动(如 sin ( x ) \sin(x) sin(x)),CNN 必须用多个 ReLU 片段去折线逼近,效率较低。
Transformer 的 Attention:数据依赖的动态加权
Attention 的非线性本质上是动态路由(Dynamic Routing)或数据依赖的权重生成。Attention 主要解决的是空间维度上的特征混合(Token-mixing/Spatial-mixing),而 Transformer 依然把通道维度上的特征映射(Channel-mixing)交给了传统的 MLP。Attention 已经做得很好了,瓶颈在于传统的 MLP 依然是死板的线性加权。Attention 操作通过矩阵乘法运算实现了并行的元素加权、空间聚合、以及恒等形式的“激活”:
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \begin{aligned} \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V \end{aligned} Attention(Q,K,V)=softmax(dkQKT)V
- 动态权重:与 CNN 的固定权重 w w w 不同,Attention 的权重是基于输入的全局内容动态计算。
- 空间混合:Attention 解决了“看哪里”的问题,负责在空间或序列维度上混合信息(Spatial Mixing)。
- 局限:尽管 Attention 机制本身很强大,但 Transformer 中负责特征变换与非线性映射的 MLP 层(Channel Mixing) 依然沿用了传统的“线性变换 + GELU”模式。这也是后续 KAT 试图改进的核心区域。
扩展边计算
KAN 和 ONN 是两种类似的架构。二者的核心革命都在于:赋予“突触(边/连接)”更强大的表达能力,打破线性权重的垄断:
- 反对线性乘法: 传统网络中,数据在“边”上只能和一个标量权重 w w w 做简单的线性乘法( w ⋅ x w \cdot x w⋅x)。KAN 和 ONN 都认为这太弱了。
- 非线性前置: 它们都把非线性变换从“节点(聚合与激活)”提前到了“边(元素连接传递)”上。
- 以少胜多: 因为单个连接/神经元的表达能力变强了,它们通常可以用比传统 MLP 更少的参数或更浅的网络层数,去拟合极其复杂的非线性函数。
Operational Neural Networks (ONN):广义运算神经元(Generalized Operational Perceptron, GOP)
ONN 受到生物神经元突触多样性的启发,提出了一种 异质(Heterogeneous) 的网络结构。它将神经元的计算过程解构为三个可定制的算子:
x k ( l ) = σ ( P k l [ Ψ k 1 l ( w k 1 l , y 1 l − 1 ) , … ] ) x^{(l)}_k = \sigma \left( P_k^l \left[ \Psi_{k1}^l(w_{k1}^l, y_1^{l-1}), \dots \right] \right) xk(l)=σ(Pkl[Ψk1l(wk1l,y1l−1),…])
- 节点算子 (Nodal Operator, Ψ \Psi Ψ):替代了传统的权重乘法。它不仅可以是标量乘积 w ⋅ y w \cdot y w⋅y,还可以是指数函数 w ⋅ e y w \cdot e^y w⋅ey、正弦函数 sin ( w ⋅ y ) \sin(w \cdot y) sin(w⋅y) 等。这模拟了生物突触复杂的神经化学反应。
- 池化算子 (Pool Operator, P P P):替代了传统的求和。它可以是 n n n-阶相关性聚合、中位数、最大值等非线性聚合方式。
- 激活算子 (Activation Operator, σ \sigma σ):保留标准激活。
这打破了“线性束缚”,使得单层网络就能拟合极其复杂的函数。但其缺点在于依赖贪婪迭代搜索 (GIS) 从预定义库中寻找算子,计算成本高昂,且难以在大规模数据上训练。后续用于图像去噪的 ONN 工作 Operational vs Convolutional Neural Networks for Image Denoising 又引入了 Synaptic Plasticity Monitoring (SPM),即根据突触权重在训练中的变化来选择更合适的非线性算子。它的动机很直接:如果某类连接在学习过程中变化剧烈,说明该位置可能需要更强的非线性操作,而不是继续使用固定的卷积乘法。不过这里也暗示了 ONN 的优势依赖算子库和搜索策略,一旦合适的算子不在库中,模型本身并不能凭空生成新的连接函数。
Self-Organized Operational Neural Network (Self-ONN):生成式神经元 (Generative Neurons)
为了解决 ONN 的算子搜索问题,Self-ONN 采用了一个更直接的思路:让网络自己生成非线性函数,而不是从函数库中选择。
- 泰勒级数逼近:Self-ONN 利用泰勒级数原理,将节点算子 Ψ \Psi Ψ 参数化为一个多项式: Ψ ( y , w ) = w 1 y + w 2 y 2 + ⋯ + w Q y Q \Psi(y, \mathbf{w}) = w_1 y + w_2 y^2 + \dots + w_Q y^Q Ψ(y,w)=w1y+w2y2+⋯+wQyQ
- 权重的升维:在传统网络中,一个连接只有一个权重 w w w;在 Self-ONN 中,一个连接拥有一组系数 w = [ w 1 , … , w Q ] \mathbf{w} = [w_1, \dots, w_Q] w=[w1,…,wQ]。
- 自组织特性:在训练过程中,如果任务只需要线性关系,高阶系数 w q > 1 w_{q>1} wq>1 会自动趋零;如果需要复杂非线性,这些系数会自动调整以拟合最佳曲线。这使得网络具有了根据数据自我演化的能力。
这表示一个连接的权重从“标量”变为“一组多项式系数”,并且神经元可以学习不同阶的非线性行为。整体不再需要算法搜索,参数梯度下降即可学习。相比 ONN,Self-ONN 的优化方式更自然,也更适合深度学习框架。
Self-ONN 并不是强行让每条连接都复杂化,而是把“是否需要复杂非线性”交给数据和梯度来决定。Self-ONN 原论文在图像去噪、图像合成、人脸分割和图像变换任务中使用更紧凑的网络进行对比,作者报告 Self-ONN 在多数设置下比 CNN 和搜索型 ONN 更高效,但也承认当 ONN 库里的某个传统算子正好接近最优时,Self-ONN 的泰勒近似不一定能超过它。
Kolmogorov-Arnold Networks (KAN):从节点非线性到边非线性
KAN 选择了一条完全不同的路径。它基于柯尔莫哥洛夫-阿诺德表示定理,对神经网络的拓扑结构进行了数学层面的重构。这个定理说明:多元函数可以通过若干一元函数和加法运算表示。基于这一思想,KAN 将激活函数放在“边”上。
在传统神经网络中,权重在边上(计算乘法),聚合激活在节点上,而 KAN 则反过来,边上是非线性函数,节点只做求和。具体的计算公式如下,其中 ϕ \phi ϕ 是可学习的一元函数。
x l + 1 , j = ∑ i ϕ l , j , i ( x l , i ) x_{l+1, j} = \sum_{i} \phi_{l, j, i}(x_{l, i}) xl+1,j=i∑ϕl,j,i(xl,i)
为了让边上的函数 ϕ \phi ϕ 既灵活又可导,KAN 引入了 B-样条曲线:
ϕ ( x ) = w b ⋅ silu ( x ) + w s ⋅ spline ( x ) \phi(x) = w_b \cdot \text{silu}(x) + w_s \cdot \text{spline}(x) ϕ(x)=wb⋅silu(x)+ws⋅spline(x)
B-样条适合逼近函数,其可解释性好、局部控制性强、精度高的优点,但是问题也很明显,例如递归计算结构难以 GPU 并行、训练速度慢、难以扩展到深度网络或大规模任务。KAN 在科学计算和公式拟合任务表现优秀,但在大型深度学习任务上受限不少。
KAN 原论文还强调了两点容易被忽略的能力。
- 网格扩展(Grid Extension)。B-样条由网格上的控制点参数化,网格越细,边函数的局部细节越丰富。KAN 的思路不是一开始就用很细的网格硬训,而是先在粗网格上学习函数的大形状,再把已有样条插值到更细的网格上继续训练。直观地看,这相当于先学低频结构,再补高频细节。因此,KAN 在函数拟合任务中常被描述为具有较好的精度扩展能力。
- 可解释化流程。由于每条边都是一元函数 ϕ l , j , i ( x ) \phi_{l,j,i}(x) ϕl,j,i(x),它可以被直接画出来,进而进行剪枝、符号化和人工交互。KAN 原论文中的可解释性并不是“模型天然会解释自己”,而是指边函数比 MLP 中的高维权重矩阵更容易被人检查。例如,当某条边函数接近 sin ( x ) \sin(x) sin(x)、 x 2 x^2 x2 或某个简单组合时,研究者可以尝试用符号函数替换样条曲线,从而把一部分神经网络重新压缩成可读公式。这个优势主要出现在小规模科学任务和符号发现任务中,不应直接外推到大规模视觉或语言模型。
KAN 的基础设定也带来了一个参数问题。对于一层输入维度 d in d_{\text{in}} din、输出维度 d out d_{\text{out}} dout 的 KAN,如果每个输入输出对都有一条独立样条边,那么边函数数量就是 d in d out d_{\text{in}} d_{\text{out}} dindout。每条边还要带上样条系数,因此参数量和计算量都会随着网格规模一起上升。这也是后续 rKAN、FC-KAN 和 KAT 都试图改造“边函数形式”的根本原因。
Kolmogorov-Arnold Transformer (KAT):为大规模模型设计的高效 KAN
KAT 的目标是将 KAN 的非线性优势引入到 Transformer 这种大规模架构中,同时解决 KAN 的效率痛点。
具体而言,它采用了两项关键改进。
- 有理函数替代样条:KAT 放弃了分段的 B-样条,改用有理函数(Rational Functions)(有理函数在数学上属于 Padé 逼近(Padé approximant) 的变体),相较 B-样条,其计算只包含加、减、乘、除,同时完全支持 GPU 并行,可以在深度网络中更易稳定训练。这种改动显著提高了速度,同时保留了足够的表达能力:
ϕ ( x ) = P ( x ) Q ( x ) = ∑ a i x i 1 + ∣ ∑ b j x j ∣ \phi(x) = \frac{P(x)}{Q(x)} = \frac{\sum a_i x^i}{1 + |\sum b_j x^j|} ϕ(x)=Q(x)P(x)=1+∣∑bjxj∣∑aixi - 分组共享 (Group-KAN):KAT 将输入通道划分为多个组,每一组共享相同的非线性函数形状。这可以大幅减少参数、降低计算量,并且也更适合 Transformer 的高维输入。
经过优化,KAT 中的 GR-KAN 层可以写成我们熟悉的矩阵形式:
GR-KAN ( x ) = W ⋅ F rational ( x ) \text{GR-KAN}(x) = W \cdot F_{\text{rational}}(x) GR-KAN(x)=W⋅Frational(x)
这里 F rational F_{\text{rational}} Frational 是可学习的有理激活函数。这意味着 KAT 实际上变成了一个 “激活函数可学习且前置”的 MLP。这种设计既保留了 KAN 的精髓,又完全兼容现有的深度学习硬件加速。
KAT 和传统 MLP 的接口相同,其可以直接替换 Transformer 中的 MLP,从而与 Attention 的组合结构兼具 KAN 的灵活性和 Transformer 的高效性。
KAT 论文把原始 KAN 难以放进 Transformer 的原因拆成三个部分。
- 基函数不适合 GPU:B-样条需要局部递归计算,不像 ReLU、GELU 或多项式那样天然适合大规模张量并行。
- 参数和计算冗余:原始 KAN 为每个输入输出通道对学习独立函数,宽度一大,边函数数量会迅速膨胀。
- 初始化不稳定:KAN 的边函数是可学习函数,直接套用 MLP 的初始化思路,不能保证深层传播中的方差稳定。
因此,KAT 不是简单把 Transformer 中的 MLP 改为 KAN,而是提出 Group-Rational KAN(GR-KAN)。它保持 Transformer 的残差结构和注意力层不变,只把通道混合部分替换
x ℓ = MLP ( LN ( x 0 ( ℓ ) ) ) + x 0 ( ℓ ) ⇒ x ℓ = KAN ( LN ( x 0 ( ℓ ) ) ) + x 0 ( ℓ ) \mathbf{x}_{\ell} = \operatorname{MLP}(\operatorname{LN}(\mathbf{x}_{0}^{(\ell)})) + \mathbf{x}_{0}^{(\ell)} \Rightarrow \mathbf{x}_{\ell} = \operatorname{KAN}(\operatorname{LN}(\mathbf{x}_{0}^{(\ell)})) + \mathbf{x}_{0}^{(\ell)} xℓ=MLP(LN(x0(ℓ)))+x0(ℓ)⇒xℓ=KAN(LN(x0(ℓ)))+x0(ℓ)
其中真正起作用的是可学习有理函数、分组共享和方差保持初始化三者的组合。
KAT 在 ImageNet-1K、COCO 检测和 ADE20K 分割实验中报告了相对 ViT/DeiT 基线的提升,但它同时指出,即便有 CUDA 优化,有理函数仍然比普通 GELU、ReLU 更慢。因此 KAT 的定位更像是“用可学习前置激活增强 MLP”,而不是保持原始 KAN 每条边完全独立的形态。
Rational Kolmogorov-Arnold Networks (rKAN):把边函数改写成有理基展开
rKAN 的切入点和 KAT 很接近,都是反思 B-样条是否一定是 KAN 的最佳基函数。B-样条适合局部控制,但在实现复杂度、平滑性和大规模训练方面并不总是方便。为了延续 KAN 的“边上是一元函数”这一设定,rKAN 可以写成:
x l + 1 , j = ∑ i ϕ l , j , i ( x l , i ) , ϕ l , j , i ( x ) = R l , j , i ( x ) x_{l+1,j} = \sum_i \phi_{l,j,i}(x_{l,i}), \quad \phi_{l,j,i}(x) = R_{l,j,i}(x) xl+1,j=i∑ϕl,j,i(xl,i),ϕl,j,i(x)=Rl,j,i(x)
其中 R l , j , i ( x ) R_{l,j,i}(x) Rl,j,i(x) 不再是 B-样条,而是有理基函数。最朴素的有理逼近可以写成两个多项式的比值:
R ( x ) = P ( x ) Q ( x ) = ∑ m = 0 M a m x m ∑ n = 0 N b n x n R(x) = \frac{P(x)}{Q(x)} = \frac{\sum_{m=0}^{M} a_m x^m} {\sum_{n=0}^{N} b_n x^n} R(x)=Q(x)P(x)=∑n=0Nbnxn∑m=0Mamxm
但 rKAN 不是简单地把分子分母写成普通幂函数。它更接近数值分析里的谱逼近思路,把 Jacobi 多项式或有理 Jacobi 函数作为基函数。Padé-rKAN 的边函数可以写成:
ϕ q , k ( ξ ) = ∑ i θ i e R i ( α , β ) ( ξ q ) ∑ i θ i d R i ( α , β ) ( ξ q ) \phi_{q,k}(\boldsymbol{\xi}) = \frac{ \sum_i \theta_i^e \mathcal{R}_i^{(\alpha,\beta)} (\boldsymbol{\xi}_q) }{ \sum_i \theta_i^d \mathcal{R}_i^{(\alpha,\beta)}(\boldsymbol{\xi}_q) } ϕq,k(ξ)=∑iθidRi(α,β)(ξq)∑iθieRi(α,β)(ξq)
这里 R i ( α , β ) \mathcal{R}_i^{(\alpha,\beta)} Ri(α,β) 表示由 Jacobi 多项式或其映射形式构造出的基函数, θ i e \theta_i^e θie 和 θ i d \theta_i^d θid 分别是分子、分母上的可学习系数。另一条路线是 rational Jacobi functions,通过有理映射把原本定义在有限区间上的 Jacobi 函数扩展到半无限或无限定义域。这样做的数学动机是增强对渐近行为、尖峰变化和奇异结构的表达能力。
这和 KAT 的有理函数方案有明显区别。KAT 使用的是 Safe Padé Activation Unit:
F ( x ) = a 0 + a 1 x + ⋯ + a m x m 1 + ∣ b 1 x + ⋯ + b n x n ∣ F(x) = \frac{a_0+a_1x+\cdots+a_mx^m} {1+\left|b_1x+\cdots+b_nx^n\right|} F(x)=1+∣b1x+⋯+bnxn∣a0+a1x+⋯+amxm
它的分母被设计成 1 + ∣ ⋅ ∣ 1+|\cdot| 1+∣⋅∣,目的是避免 Q ( x ) = 0 Q(x)=0 Q(x)=0 导致的极点爆炸,让深层 Transformer 更稳定。因此,KAT 的有理函数更像“安全的可学习前置激活”;rKAN 的有理函数更像“保留 KAN 边函数身份的谱基展开”。前者强调深层网络稳定和 GPU 友好,后者强调函数逼近能力,尤其是对物理问题、渐近函数和复杂曲线的适配。
rKAN 在回归、MNIST 分类以及物理信息任务中进行了验证,论文报告它在部分任务上能取得更高精度,但 Padé-rKAN 需要同时计算两个加权基函数展开,训练时间复杂度也会上升。
FC-KAN:从单一基函数走向函数组合
如果说 rKAN 和 KAT 关注“用什么函数替代样条”,那么 FC-KAN 关注的是“能不能让多种函数协同工作”。它不只选一个基函数,而是让输入分别经过多种 KAN 分支,例如 B-样条、径向基函数(Radial Basis Function, RBF)、Derivative of Gaussian(DoG)或线性变换,然后在低维输出空间做组合:
o i = f i ( x ) = ( f i , L − 1 ∘ f i , L − 2 ∘ ⋯ ∘ f i , 0 ) ( x ) \mathbf{o}_i = f_i(\mathbf{x}) = (f_{i,L-1}\circ f_{i,L-2}\circ \cdots \circ f_{i,0})(\mathbf{x}) oi=fi(x)=(fi,L−1∘fi,L−2∘⋯∘fi,0)(x)
得到 o 1 , o 2 , … , o n \mathbf{o}_1,\mathbf{o}_2,\dots,\mathbf{o}_n o1,o2,…,on 后,FC-KAN 进一步比较求和、逐元素乘积、求和加乘积、二次函数、三次函数、拼接、线性拼接、最大值、最小值和平均值等组合方式。它有一个重要工程判断:高维张量上的乘法组合很容易带来显存和时间问题,所以复杂组合应尽量放到低维输出层。
在 MNIST 和 Fashion-MNIST 的五次独立训练平均结果中,论文报告 FC-KAN 的若干组合优于 MLP、EfficientKAN、FastKAN、FasterKAN 和 BSRBF-KAN。特别是 DoG+B-样条、B-样条+线性变换的二次组合表现较好。不过,这个结果也有明显边界:它的训练时间通常更长,而且三次组合没有带来预期收益,说明“更高阶”并不自动等于“更好”。这和 Self-ONN 的经验是一致的,非线性扩展必须被计算代价和任务结构约束住。
数学逼近的对仗:从“局部样条”回归“全局函数”
KAN 最大的卖点是局部控制性极强的 B-样条(B-Splines),但这在 GPU 上非常不友好。
- Self-ONN 利用 泰勒级数(Taylor Series) 多项式来全局逼近非线性。
- KAT 利用 有理函数(基于 Padé 逼近) 来全局逼近非线性。
两者都放弃了分段式的几何插值,转而采用了更适合张量运算的代数方程(多项式或分式)。KAT 的有理函数甚至可以看作是 Self-ONN 泰勒多项式的一种进阶版,因为有理函数在处理极点和渐近线时,比单纯的多项式具有更强的表达能力。
架构落地的必然妥协:从“绝对异质”到“分组同质”
在理论上,最理想的状态是“绝对异质”的,即 ONN 和早期的 KAN 都希望网络中的每一条边都拥有完全不同的非线性函数。然而,这种计算复杂度( O ( N 2 ) O(N^2) O(N2))是现代硬件无法承受的。
- Self-ONN 虽然可以展开多项式,但本质上还是通过标准的线性组合来汇总特征。
- KAT 的分组共享形式,强制一组通道共享同一套有理函数参数。
这意味着它们都做出了工程妥协:放弃了每条边绝对独立的设计,转而采用“特征在通道层面进行参数化非线性展开 → \rightarrow → 再通过传统权重矩阵进行线性混合”的范式。
生成式激活:让网络自己“捏”出非线性
无论是 Self-ONN 学习多项式系数 w = [ w 1 , … , w Q ] \mathbf{w} = [w_1, \dots, w_Q] w=[w1,…,wQ],还是 KAT 学习有理分式中的分子分母系数 ( a i , b j ) (a_i, b_j) (ai,bj),它们都摆脱了“从固定库中选择函数(如早期的搜索型 ONN)”或“使用预设的死板函数(如 ReLU)”的限制。它们通过梯度下降,直接在数据流动的过程中“捏”出最适合当前任务的激活函数曲线,实现了真正的激活函数参数化生成。
FC-KAN 中的 ONN 影子:从异质算子到函数组合
FC-KAN 虽然仍然属于 KAN 的扩展,但它的设计里确实能看到 ONN 系列架构的影子。ONN 的核心直觉是:传统神经元里的 w ⋅ x w \cdot x w⋅x 太单一,应该允许连接或节点使用不同的非线性算子。FC-KAN 做的事情很相似,只是它没有像 ONN 那样把神经元拆成 nodal operator、pool operator 和 activation operator,也没有像 Self-ONN 那样让每条连接都学习一个泰勒多项式算子。它保留 KAN 的“边函数 + 节点求和”框架,然后让输入分别经过 B-样条、RBF、DoG 或线性变换等不同函数分支,最后在低维输出空间做组合。
换句话说,ONN 的异质性发生在神经元内部,Self-ONN 的异质性发生在每个核连接的节点算子上,而 FC-KAN 的异质性发生在多个 KAN 函数分支之间。它不是 ONN,但它把 ONN 系列“多算子协同”的思路移植到了 KAN 的边函数体系里:
ONN/Self-ONN : y → Ψ ( y , w ) FC-KAN : x → { f 1 ( x ) , f 2 ( x ) , … , f n ( x ) } → C ( o 1 , o 2 , … , o n ) \text{ONN/Self-ONN}: \quad y \rightarrow \Psi(y,\mathbf{w}) \\ \text{FC-KAN}: \quad \mathbf{x} \rightarrow \{f_1(\mathbf{x}), f_2(\mathbf{x}), \dots, f_n(\mathbf{x})\} \rightarrow C(\mathbf{o}_1,\mathbf{o}_2,\dots,\mathbf{o}_n) ONN/Self-ONN:y→Ψ(y,w)FC-KAN:x→{f1(x),f2(x),…,fn(x)}→C(o1,o2,…,on)
其中 C ( ⋅ ) C(\cdot) C(⋅) 可以是求和、逐元素乘积、二次组合或其他低维融合方式。
这个区别很关键:FC-KAN 不是把每条边都变成任意算子,而是在函数分支层面增加异质性,再用低维组合控制计算成本。因此,它更像是 KAN 版本的“函数组合型 Self-ONN”,而不是完整复刻 ONN 的神经元定义。
数学等效性:高阶前置的广义 MLP
KAT 与 Self-ONN 的底层计算图惊人地一致:它们都是先用一个复杂的可学习函数 F ( x ) F(x) F(x) 对输入特征进行逐元素(Element-wise)的高维非线性展开,然后再用一个标准的矩阵 W W W 做线性聚合。FC-KAN 的形式稍有不同,它先并行得到多个函数分支的输出,再用组合函数 C ( ⋅ ) C(\cdot) C(⋅) 汇总这些输出,但它的目的仍然是让固定线性映射之前出现更丰富的非线性表达。此时,边上的计算和节点上的计算界限已经被打破,它们实际上都演变成一种高阶广义 MLP:先用可学习函数扩展输入,再用更简单的线性或低维组合完成汇总。
小结
如果说 KAN 提供了理论指引(把计算压力转移到边上),那么 Self-ONN 早就暗示了工程上可行的方向(用代数级数拟合函数)。FC-KAN 则把 ONN 的多算子协同直觉转译成 KAN 的函数分支组合,而 KAT 进一步利用现代 GPU 友好的有理函数和分组机制,将“可学习非线性”这一理念推向 Transformer 中的应用。
整体来看,神经网络的发展正在从 所有神经元使用相同结构 逐步转向 允许神经元或连接具备可学习的非线性。这使得模型具有更高的表达能力,同时不必依赖过深的网络堆叠。
参考论文与作者信息
| 论文标题 | 作者 |
|---|---|
| Operational Neural Networks | Serkan Kiranyaz, Turker Ince, Alexandros Iosifidis, Moncef Gabbouj |
| Operational vs Convolutional Neural Networks for Image Denoising | Junaid Malik, Serkan Kiranyaz, Moncef Gabbouj |
| Self-Organized Operational Neural Networks with Generative Neurons | Serkan Kiranyaz, Junaid Malik, Habib Ben Abdallah, Turker Ince, Alexandros Iosifidis, Moncef Gabbouj |
| KAN: Kolmogorov-Arnold Networks | Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark |
| rKAN: Rational Kolmogorov-Arnold Networks | Alireza Afzal Aghaei |
| Kolmogorov-Arnold Transformer | Xingyi Yang, Xinchao Wang |
| FC-KAN: Function Combinations in Kolmogorov-Arnold Networks | Hoang-Thang Ta, Duy-Quy Thai, Abu Bakar Siddiqur Rahman, Grigori Sidorov, Alexander Gelbukh |
更多推荐
所有评论(0)