深度学习的学习率

在梯度下降算法中，权重更新公式是这样的：θ：模型参数。

leiming6

512人浏览 · 2025-07-15 15:00:52

leiming6 · 2025-07-15 15:00:52 发布

“学习率（learning rate）”是深度学习中最重要的超参数之一，它决定了模型参数每次更新的步长，直接影响训练的速度和效果。我们来分开讲一下：

1. 什么是学习率

在梯度下降算法中，权重更新公式是这样的：

θnew=θold−η⋅∇L(θ)

θ：模型参数
η：学习率（learning rate）
∇L(θ)：损失函数的梯度

这里的 η 就是学习率，它控制着模型在每一步训练中沿着梯度方向前进的幅度。

2. 学习率太大 or 太小会怎样

学习率大小	影响
太大	梯度更新步子太大，可能会跳过最优解甚至发散，损失震荡无法收敛。
太小	更新步子太小，训练会非常慢，容易陷入局部最优或者过早停滞。

⚠ 直观理解：

学习率大 = 每次跳很远，可能直接跳过山谷。
学习率小 = 每次移动一点点，慢慢滑向低谷。

3. 常见解决方案

(1) 学习率衰减（Learning Rate Decay）

训练过程中逐渐减小学习率。
例如：ηt=η0/(1+k⋅t)
这样前期快收敛，后期细调。

(2) 自适应学习率算法

经典优化器（优化算法）会自动调整学习率：
- Adam：根据历史梯度自适应调整每个参数的学习率
- RMSProp / Adagrad：适合稀疏梯度
- SGD + momentum：带动量的随机梯度下降，收敛更
  
  (3) 循环调节（Cyclical LR）
- 让学习率在一个范围内循环变化，有助于跳出局部最优。

4. 如何选学习率

经验值：

通常 0.001 ~ 0.1 是常见范围
Adam 默认 0.001
SGD 默认 0.01
做实验：
用“学习率预热（learning rate warm-up）”或“学习率搜索”快速找合适值。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git