非Transformer架构,指的是不依赖自注意力机制作为核心计算单元的神经网络架构。简单来说,就是不走Transformer那条路的模型设计。在Transformer于2017年横空出世之前,几乎所有语言模型都是非Transformer架构。而今天,尽管Transformer已成为绝对主流,但研究者们仍在积极探索替代方案,试图解决Transformer固有的“平方复杂度”(即随着文本长度增加,计算量呈平方级增长)等瓶颈问题。下面我们从两个维度来理解:一是历史中的非Transformer架构,二是面向未来的新探索。

一、历史中的非Transformer架构

在Transformer诞生前,语言模型的世界是RNN及其变体的天下。

架构 核心机制 类比理解 优点 局限性
RNN 隐藏状态传递,像一个“接力棒” 记忆力有限的读者,读一页忘一页 能处理可变长序列,参数量小 梯度消失/爆炸,长距离依赖能力弱
LSTM 门机制(遗忘门、输入门、输出门),像一个“智能档案管理员” 能决定记什么、忘什么的读者 缓解了梯度消失,能记住更长的信息 仍是串行计算,训练速度慢
GRU LSTM的简化版,参数更少 效率更高的档案管理员 计算量比LSTM小,效果相近 同样受限于串行计算

这些模型在今天的一些轻量级场景中仍有应用,但它们最大的问题在于天生串行——必须一个词一个词地往后读,无法充分利用GPU的并行计算能力。这也是Transformer能够后来居上的根本原因。

二、后Transformer时代

随着模型规模不断扩大,Transformer的O(n²)复杂度(n为文本长度)成为越来越明显的瓶颈。当处理十万、百万甚至更长的文本时,自注意力的计算成本高得令人望而却步。研究者们正在探索多种替代方案,试图打破这一限制。

1. 状态空间模型(SSM,State Space Model)

代表模型:Mamba、Mamba-2

SSM是当前最受关注的非Transformer方向之一。它的核心思想是用状态空间方程来模拟序列的动态演化,而非通过注意力机制显式计算词与词之间的关系。

类比理解:如果把Transformer比作一个“全局会议”——所有人都要跟所有人交流(复杂度O(n²)),那么Mamba就像一条“高效的流水线”——每个工位只处理当前工件,但通过精心设计的系统状态,信息仍能高效传递到下游。

Mamba的核心创新

  • 选择性状态空间:让模型能够根据输入内容动态调整状态更新方式,解决了传统SSM“一视同仁”的问题。

  • 线性复杂度O(n):处理长文本时,计算量随长度线性增长,而非平方级增长。在10万token的序列上,Mamba比Transformer快数个数量级。

当前状态:Mamba在长文本建模、音频处理等任务上展现出巨大潜力,但在大规模语言模型上能否完全替代Transformer仍在验证中。值得关注的是,Mamba-2引入了与注意力机制更紧密的理论联系,为两者融合提供了新思路。

2. 线性注意力(Linear Attention)

代表模型:RWKV、RetNet

线性注意力试图在保持注意力机制“动态权重”优点的同时,将计算复杂度从O(n²)降至O(n)。

RWKV:这个名字取自RNN(循环)+ Transformer(注意力)的结合。它巧妙地将Transformer的注意力计算重写为一种RNN的形式——训练时仍可并行(像Transformer),推理时则表现为RNN的常数级状态(不像Transformer需要缓存所有历史KV)。RWKV的参数量与同规模Transformer相当,但在推理速度上优势明显。

RetNet(微软):引入了“保留机制”,在训练时支持并行,推理时支持循环,并实现了O(n)复杂度。RetNet在某些语言建模任务上表现出与Transformer相当的性能。

3. 其他探索方向

  • Hyena(斯坦福):使用长卷积替代注意力,实现了次二次复杂度(O(n log n)),在部分任务上可匹敌Transformer。

  • KAN:基于柯尔莫哥洛夫-阿诺德定理的神经网络,用可学习的激活函数替代固定激活函数,探索全新的网络结构。

  • 神经拟态计算:尝试模拟人脑的脉冲神经网络(SNN),追求极致的能效比,目前尚处于早期研究阶段。

三、非Transformer架构

Transformer虽然强大,但它并非完美:

问题 说明
平方复杂度 处理长文本时计算成本极高。一篇10万token的小说,自注意力需要计算100亿次交互。
推理成本高 自回归生成时,需要缓存所有历史token的KV状态,长文本下显存占用巨大。
位置编码局限 对绝对位置或相对位置的编码方式仍在不断演进,尚未有完美方案。

非Transformer架构的探索,正是为了突破这些瓶颈,寻找更高效、更适合长文本、推理更快的替代方案。

四、非Transformer架构的现状与未来

客观地说,目前Transformer仍是大语言模型的绝对主流,非Transformer架构尚处于“挑战者”地位。GPT-4、LLaMA、Qwen等主流模型无一例外都基于Transformer或其变体。

但情况正在发生变化:

  • 2023年底:Mamba论文引发广泛关注,被视为最有潜力的替代方案。

  • 2024年:Mamba-2发布,进一步提升了性能和实用性;RWKV v5、RetNet等也在持续迭代。

  • 2025年:多个研究团队尝试将Transformer与SSM融合,如Jamba(结合Mamba和Transformer的混合架构),取长补短。

未来,很可能不是“谁取代谁”,而是“谁更适合什么场景”:

  • 通用大模型:仍以Transformer为主,其成熟度和生态优势难以撼动

  • 超长文本处理:SSM类模型可能成为首选

  • 边缘端/实时推理:线性注意力或RNN类模型更具优势

最后小结

非Transformer架构是一个不断演进的范畴。它既包括RNN、LSTM这些Transformer之前的“前辈”,也包括Mamba、RWKV这些试图超越Transformer的“新锐”。尽管Transformer在可预见的未来仍将占据主导地位,但探索替代架构的研究对于突破计算瓶颈、开辟新可能性的意义不言而喻。

正如计算机架构领域没有“万能芯片”一样,语言模型的架构选择也终将走向多元化——不同架构服务于不同需求,而非单一的“最优解”。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐