大模型训练｜LoRA高效参数微调技术

LoRA（低秩适应）是一种参数高效微调技术，通过低秩矩阵分解大幅减少微调参数。文章解析了低秩矩阵相乘的数学特性（秩不超过原矩阵最小值），说明其能有效近似满秩矩阵的核心信息。重点介绍了LoRA微调策略设计：仅调整模型部分参数（如自注意力层），通过低秩矩阵A、B实现参数更新。实验表明合理选择秩r（通常较小）可保持模型性能，且微调矩阵ΔW与原权重W存在放大关系。该技术显著降低了大模型微调资源需求，成为当

程序员朱鹏

889人浏览 · 2025-12-05 17:46:30

程序员朱鹏 · 2025-12-05 17:46:30 发布

低秩适应（LoRA，Low-Rank Adaptation ）是参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）领域的重要技术之一。它打破传统全量微调的局限，只对模型中少量参数进行调整，就能让模型在特定任务上表现出色，大大降低了大模型在不同任务适配过程中的资源门槛。本节主要介绍：

1）矩阵中的秩和低秩矩阵相乘的有效性
2）利用低秩矩阵相乘，LoRA 的微调策略设计
3）LoRA如何选取秩 r 大小，微调矩阵 △W和原权重矩阵 W之间关系

1，矩阵中的秩

1.1，低秩矩阵相乘的秩上限

秩的定义：矩阵中线性无关的行或列的最大数量

直观理解：矩阵的"信息密度"或"表达能力"。例如一个3×3的单位矩阵，秩为3，因为它有3个线性无关的向量

两矩阵相乘的秩：

假设矩阵 A 是一个m×r的低秩矩阵（秩为 r），矩阵 B 是一个r×n的低秩矩阵（秩为 r），则它们的乘积 C=A×B 是一个m×n的矩阵。根据线性代数的性质，乘积矩阵 C 的秩不超过 A 和 B 的秩的最小值，即rank(C) ≤ min(rank(A), rank(B)) = r。

而满秩矩阵的秩等于其行数或列数，如m×n满秩矩阵的秩为min(m,n)。若r < min(m,n)，则 C 的秩必然小于满秩矩阵的秩，因此无法精确等价于满秩矩阵。

最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，整体AI领域2025年预计缺口1000万人，其中算法、工程应用类人才需求最为紧迫！

学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

1.2，低秩矩阵相乘的有效性

问题： 两低秩矩阵相乘，是否可以近似于一个满秩矩阵的表示效果？

结论：低秩近似具有有效性，但无法完全等价。

但在很多任务中，矩阵的 “核心信息” 往往集中在低秩分量中。如：

• 图像、文本等数据的特征矩阵中，大部分有价值的信息可通过低秩矩阵捕捉，冗余信息（高秩分量）对结果影响较小；
• 大模型的权重更新矩阵，微调时的 △W，本身具有 “低秩特性”，所以模型适应新任务时，权重的变化不需要满秩矩阵来描述，核心变化可通过低秩矩阵近似。

因此，用两个低秩矩阵 A×B（秩为 r）近似满秩矩阵 W 时，只要 r 选择得当，比如 r 远小于 W 的维度但能覆盖核心变化，就能以极小的误差逼近 W 的效果，同时大幅减少参数数量（从m×n降至m×r + r×n）。

小结：

受限于秩的数学性质，两个低秩矩阵相乘无法精确表示满秩矩阵，但在实际任务中，通过合理选择低秩维度 r，能够以较小的误差逼近满秩矩阵的核心信息，满足模型微调等场景的需求。这也是低秩适应技术在大模型优化中广泛应用的核心原因。

2，LoRA微调策略

• 传统的全量微调策略

在这里插入图片描述
数对 A 和 B的梯度，进而更新它们的参数，使模型在新任务上的性能不断提升。

图1，LoRA 微调训练示意图。

3，LoRA微调相关问题

3.1，模型中那部分参数应该使用LoRA

表1，对自注意力中不同的参数进行微调的效果。

在这里插入图片描述

3.2，微调矩阵的秩如何选取

表2，秩大小对准确率的影响。

在这里插入图片描述

3.3，微调矩阵△W和权重矩阵W的关系

表3，微调矩阵和权重矩阵存在一定的放大关系。

在这里插入图片描述
最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git