探索深度学习新路径:Kolmogorov-Arnold网络(KANs)
在深度学习领域,新的探索从未停止。近期一篇机器学习论文提出的Kolmogorov-Arnold网络(KANs),为该领域开辟了一条崭新的道路。
在深度学习领域,新的探索从未停止。近期一篇机器学习论文提出的Kolmogorov-Arnold网络(KANs),为该领域开辟了一条崭新的道路。
一、KANs出现的背景:MLP的困境
多层感知器(MLP),作为现代深度学习的基础模块,在处理复杂问题上表现出色,能有效逼近输入与输出数据间的曲线关系。然而,它并非完美无缺。比如在像Transformer这样的模型中,MLP消耗了大量与数据嵌入无关的参数。而且,MLP常被视为黑盒模型,相比模型中的其他部分(如注意力层),理解其预测原因较为困难,若无额外分析工具,很难洞悉其内在逻辑。
二、理解KANs的基础概念
要理解KANs,需要掌握一些基础数学和机器学习知识,像基本微积分、线性代数中的微分、积分和矩阵运算;初等实分析里的连续函数、级数和函数空间;多元微积分中的偏导数和多元函数;动力系统的相空间、稳定性和不动点等基本概念;机器学习基础中的神经网络、激活函数和训练算法,以及Kolmogorov-Arnold定理——该定理保证任何多元连续函数都能表示为连续一元函数的组合。
三、KANs的独特设计
与MLP在节点上设置固定激活函数不同,KANs在边上放置可学习的激活函数。这意味着KANs中的每个权重参数都被一个可学习的一维函数替代,极大地提升了网络的灵活性。令人惊讶的是,尽管增加了这种复杂性,KANs的计算图往往比MLP更小。在一些情况下,比如求解偏微分方程(PDE),一个简单的KAN在精度和参数效率上都能超越大得多的MLP。研究表明,在求解PDE时,一个2层宽10的KAN比4层宽100的MLP精度高100倍(均方误差分别为10⁻⁷和10⁻⁵ ),参数效率也高100倍(参数分别为10²和10⁴ )。
四、KANs背后的数学原理——Kolmogorov-Arnold表示定理
KANs基于Kolmogorov-Arnold表示定理,若f是有界域上的多元连续函数,那么f可写成一元连续函数和加法二元运算的有限组合。例如对于多元函数y = f(x₁, x₂, …, xn) ,依据定理,可将其分解为多个一元函数的组合。就像把复杂的多元方程拆解成一个个只涉及一个变量及其函数的小方程,然后将这些函数的输出相加,再将总和输入到另一个一元函数。
五、KANs的架构与训练
从架构上看,KANs类似MLP,也可堆叠多层形成深度神经网络。不过,两者在激活函数的设置上有本质区别。MLP的激活函数固定且无参数,而KANs的激活函数沿边设置且可学习,并且KANs完全没有线性权重矩阵。
在训练方面,KANs使用B - 样条作为激活函数,这是一种由多项式段组成的曲线,每个段的光滑度有特定设定。B - 样条的优势在于局部可控性,调整一个控制点仅影响曲线的局部区域,这对训练时的稳定性和可微性至关重要。训练KANs时,先随机初始化网络参数,通过前向和后向传播,利用反向传播算法根据损失计算梯度,进而调整参数。但训练KANs面临稳定性和收敛性的挑战,研究者会采用如随机失活(dropout)、权重衰减等正则化技术,精心挑选优化算法和学习率,还会使用批归一化和层归一化技术辅助训练。
六、KANs的优劣势
KANs的优势显著,它比标准MLP更具表现力,能用更少参数学习函数,在拟合物理方程和求解PDE等科学任务中表现卓越,有望在诸如Navier - Stokes方程和密度泛函理论等复杂问题上发挥作用,还可能增强像Transformer这样的机器学习模型。同时,KANs不易出现灾难性遗忘,这得益于B - 样条的局部控制特性。然而,KANs的训练速度较慢,约为相同参数数量MLP的十分之一,并且它无法利用GPU并行处理,限制了其在需要快速训练场景中的应用。此外,KANs尚未在大型机器学习数据集上测试,在实际场景中的优势尚不明确。
总之,KANs为深度学习带来了新的思路和方法。若追求可解释性和准确性,且对训练速度要求不高,KANs值得尝试;若注重快速训练,MLP仍是更好的选择。
更多推荐
所有评论(0)