老码农和你一起学AI系列:非Transformer架构
非Transformer架构指不依赖自注意力机制的神经网络模型。在Transformer主导的当下,研究者仍在探索替代方案以解决其平方复杂度等瓶颈。历史架构如RNN、LSTM等存在串行计算问题;新兴方案包括线性复杂度的状态空间模型(如Mamba)、线性注意力模型(如RWKV)等。尽管Transformer仍是主流,但未来可能呈现多元化格局:Transformer主导通用场景,SSM擅长长文本处理,
非Transformer架构,指的是不依赖自注意力机制作为核心计算单元的神经网络架构。简单来说,就是不走Transformer那条路的模型设计。在Transformer于2017年横空出世之前,几乎所有语言模型都是非Transformer架构。而今天,尽管Transformer已成为绝对主流,但研究者们仍在积极探索替代方案,试图解决Transformer固有的“平方复杂度”(即随着文本长度增加,计算量呈平方级增长)等瓶颈问题。下面我们从两个维度来理解:一是历史中的非Transformer架构,二是面向未来的新探索。

一、历史中的非Transformer架构
在Transformer诞生前,语言模型的世界是RNN及其变体的天下。
| 架构 | 核心机制 | 类比理解 | 优点 | 局限性 |
|---|---|---|---|---|
| RNN | 隐藏状态传递,像一个“接力棒” | 记忆力有限的读者,读一页忘一页 | 能处理可变长序列,参数量小 | 梯度消失/爆炸,长距离依赖能力弱 |
| LSTM | 门机制(遗忘门、输入门、输出门),像一个“智能档案管理员” | 能决定记什么、忘什么的读者 | 缓解了梯度消失,能记住更长的信息 | 仍是串行计算,训练速度慢 |
| GRU | LSTM的简化版,参数更少 | 效率更高的档案管理员 | 计算量比LSTM小,效果相近 | 同样受限于串行计算 |
这些模型在今天的一些轻量级场景中仍有应用,但它们最大的问题在于天生串行——必须一个词一个词地往后读,无法充分利用GPU的并行计算能力。这也是Transformer能够后来居上的根本原因。
二、后Transformer时代
随着模型规模不断扩大,Transformer的O(n²)复杂度(n为文本长度)成为越来越明显的瓶颈。当处理十万、百万甚至更长的文本时,自注意力的计算成本高得令人望而却步。研究者们正在探索多种替代方案,试图打破这一限制。
1. 状态空间模型(SSM,State Space Model)
代表模型:Mamba、Mamba-2
SSM是当前最受关注的非Transformer方向之一。它的核心思想是用状态空间方程来模拟序列的动态演化,而非通过注意力机制显式计算词与词之间的关系。
类比理解:如果把Transformer比作一个“全局会议”——所有人都要跟所有人交流(复杂度O(n²)),那么Mamba就像一条“高效的流水线”——每个工位只处理当前工件,但通过精心设计的系统状态,信息仍能高效传递到下游。
Mamba的核心创新:
-
选择性状态空间:让模型能够根据输入内容动态调整状态更新方式,解决了传统SSM“一视同仁”的问题。
-
线性复杂度O(n):处理长文本时,计算量随长度线性增长,而非平方级增长。在10万token的序列上,Mamba比Transformer快数个数量级。
当前状态:Mamba在长文本建模、音频处理等任务上展现出巨大潜力,但在大规模语言模型上能否完全替代Transformer仍在验证中。值得关注的是,Mamba-2引入了与注意力机制更紧密的理论联系,为两者融合提供了新思路。
2. 线性注意力(Linear Attention)
代表模型:RWKV、RetNet
线性注意力试图在保持注意力机制“动态权重”优点的同时,将计算复杂度从O(n²)降至O(n)。
RWKV:这个名字取自RNN(循环)+ Transformer(注意力)的结合。它巧妙地将Transformer的注意力计算重写为一种RNN的形式——训练时仍可并行(像Transformer),推理时则表现为RNN的常数级状态(不像Transformer需要缓存所有历史KV)。RWKV的参数量与同规模Transformer相当,但在推理速度上优势明显。
RetNet(微软):引入了“保留机制”,在训练时支持并行,推理时支持循环,并实现了O(n)复杂度。RetNet在某些语言建模任务上表现出与Transformer相当的性能。
3. 其他探索方向
-
Hyena(斯坦福):使用长卷积替代注意力,实现了次二次复杂度(O(n log n)),在部分任务上可匹敌Transformer。
-
KAN:基于柯尔莫哥洛夫-阿诺德定理的神经网络,用可学习的激活函数替代固定激活函数,探索全新的网络结构。
-
神经拟态计算:尝试模拟人脑的脉冲神经网络(SNN),追求极致的能效比,目前尚处于早期研究阶段。
三、非Transformer架构
Transformer虽然强大,但它并非完美:
| 问题 | 说明 |
|---|---|
| 平方复杂度 | 处理长文本时计算成本极高。一篇10万token的小说,自注意力需要计算100亿次交互。 |
| 推理成本高 | 自回归生成时,需要缓存所有历史token的KV状态,长文本下显存占用巨大。 |
| 位置编码局限 | 对绝对位置或相对位置的编码方式仍在不断演进,尚未有完美方案。 |
非Transformer架构的探索,正是为了突破这些瓶颈,寻找更高效、更适合长文本、推理更快的替代方案。
四、非Transformer架构的现状与未来
客观地说,目前Transformer仍是大语言模型的绝对主流,非Transformer架构尚处于“挑战者”地位。GPT-4、LLaMA、Qwen等主流模型无一例外都基于Transformer或其变体。
但情况正在发生变化:
-
2023年底:Mamba论文引发广泛关注,被视为最有潜力的替代方案。
-
2024年:Mamba-2发布,进一步提升了性能和实用性;RWKV v5、RetNet等也在持续迭代。
-
2025年:多个研究团队尝试将Transformer与SSM融合,如Jamba(结合Mamba和Transformer的混合架构),取长补短。
未来,很可能不是“谁取代谁”,而是“谁更适合什么场景”:
-
通用大模型:仍以Transformer为主,其成熟度和生态优势难以撼动
-
超长文本处理:SSM类模型可能成为首选
-
边缘端/实时推理:线性注意力或RNN类模型更具优势
最后小结
非Transformer架构是一个不断演进的范畴。它既包括RNN、LSTM这些Transformer之前的“前辈”,也包括Mamba、RWKV这些试图超越Transformer的“新锐”。尽管Transformer在可预见的未来仍将占据主导地位,但探索替代架构的研究对于突破计算瓶颈、开辟新可能性的意义不言而喻。
正如计算机架构领域没有“万能芯片”一样,语言模型的架构选择也终将走向多元化——不同架构服务于不同需求,而非单一的“最优解”。
更多推荐
所有评论(0)