探索深度学习新路径：Kolmogorov-Arnold网络（KANs）

在深度学习领域，新的探索从未停止。近期一篇机器学习论文提出的Kolmogorov-Arnold网络（KANs），为该领域开辟了一条崭新的道路。

2501_90323865

585人浏览 · 2025-06-18 02:25:23

2501_90323865 · 2025-06-18 02:25:23 发布

在深度学习领域，新的探索从未停止。近期一篇机器学习论文提出的Kolmogorov-Arnold网络（KANs），为该领域开辟了一条崭新的道路。

一、KANs出现的背景：MLP的困境

多层感知器（MLP），作为现代深度学习的基础模块，在处理复杂问题上表现出色，能有效逼近输入与输出数据间的曲线关系。然而，它并非完美无缺。比如在像Transformer这样的模型中，MLP消耗了大量与数据嵌入无关的参数。而且，MLP常被视为黑盒模型，相比模型中的其他部分（如注意力层），理解其预测原因较为困难，若无额外分析工具，很难洞悉其内在逻辑。

二、理解KANs的基础概念

要理解KANs，需要掌握一些基础数学和机器学习知识，像基本微积分、线性代数中的微分、积分和矩阵运算；初等实分析里的连续函数、级数和函数空间；多元微积分中的偏导数和多元函数；动力系统的相空间、稳定性和不动点等基本概念；机器学习基础中的神经网络、激活函数和训练算法，以及Kolmogorov-Arnold定理——该定理保证任何多元连续函数都能表示为连续一元函数的组合。

三、KANs的独特设计

与MLP在节点上设置固定激活函数不同，KANs在边上放置可学习的激活函数。这意味着KANs中的每个权重参数都被一个可学习的一维函数替代，极大地提升了网络的灵活性。令人惊讶的是，尽管增加了这种复杂性，KANs的计算图往往比MLP更小。在一些情况下，比如求解偏微分方程（PDE），一个简单的KAN在精度和参数效率上都能超越大得多的MLP。研究表明，在求解PDE时，一个2层宽10的KAN比4层宽100的MLP精度高100倍（均方误差分别为10⁻⁷和10⁻⁵ ），参数效率也高100倍（参数分别为10²和10⁴ ）。

四、KANs背后的数学原理——Kolmogorov-Arnold表示定理

KANs基于Kolmogorov-Arnold表示定理，若f是有界域上的多元连续函数，那么f可写成一元连续函数和加法二元运算的有限组合。例如对于多元函数y = f(x₁, x₂, …, xn) ，依据定理，可将其分解为多个一元函数的组合。就像把复杂的多元方程拆解成一个个只涉及一个变量及其函数的小方程，然后将这些函数的输出相加，再将总和输入到另一个一元函数。

五、KANs的架构与训练

从架构上看，KANs类似MLP，也可堆叠多层形成深度神经网络。不过，两者在激活函数的设置上有本质区别。MLP的激活函数固定且无参数，而KANs的激活函数沿边设置且可学习，并且KANs完全没有线性权重矩阵。

在训练方面，KANs使用B - 样条作为激活函数，这是一种由多项式段组成的曲线，每个段的光滑度有特定设定。B - 样条的优势在于局部可控性，调整一个控制点仅影响曲线的局部区域，这对训练时的稳定性和可微性至关重要。训练KANs时，先随机初始化网络参数，通过前向和后向传播，利用反向传播算法根据损失计算梯度，进而调整参数。但训练KANs面临稳定性和收敛性的挑战，研究者会采用如随机失活（dropout）、权重衰减等正则化技术，精心挑选优化算法和学习率，还会使用批归一化和层归一化技术辅助训练。

六、KANs的优劣势

KANs的优势显著，它比标准MLP更具表现力，能用更少参数学习函数，在拟合物理方程和求解PDE等科学任务中表现卓越，有望在诸如Navier - Stokes方程和密度泛函理论等复杂问题上发挥作用，还可能增强像Transformer这样的机器学习模型。同时，KANs不易出现灾难性遗忘，这得益于B - 样条的局部控制特性。然而，KANs的训练速度较慢，约为相同参数数量MLP的十分之一，并且它无法利用GPU并行处理，限制了其在需要快速训练场景中的应用。此外，KANs尚未在大型机器学习数据集上测试，在实际场景中的优势尚不明确。

总之，KANs为深度学习带来了新的思路和方法。若追求可解释性和准确性，且对训练速度要求不高，KANs值得尝试；若注重快速训练，MLP仍是更好的选择。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git