机器学习_神经网络训练时梯度爆炸和梯度消失产生的原因及解决方法

一般在深层神经网络中，我们需要预防梯度爆炸和梯度消失的情况。梯度消失（gradient vanishing problem）和梯度爆炸（gradient exploding problem）一般随着网络层数的增加会变得越来越明显。例如下面所示的含有三个隐藏层的神经网络，梯度消失问题发生时，接近输出层的hiden layer3的权重更新比较正常，但是前面的hidden layer1的权重更新会变得很

【WeThinkIn】的主理人

3069人浏览 · 2020-07-11 10:29:51

【WeThinkIn】的主理人 · 2020-07-11 10:29:51 发布

梯度爆炸和梯度消失问题

一般在深层神经网络中，我们需要预防梯度爆炸和梯度消失的情况。

梯度消失（gradient vanishing problem）和梯度爆炸（gradient exploding problem）一般随着网络层数的增加会变得越来越明显。

例如下面所示的含有三个隐藏层的神经网络，梯度消失问题发生时，接近输出层的hiden layer3的权重更新比较正常，但是前面的hidden layer1的权重更新会变得很慢，导致前面的权重几乎不变，仍然接近初始化的权重，这相当于hidden layer1没有学到任何东西，此时深层网络只有后面的几层网络在学习，而且网络在实际上也等价变成了浅层网络。

在这里插入图片描述

那么产生这种现象的原因是什么呢？

我们来看看看反向传播的过程：

（假设网络每一层只有一个神经元，并且对于每一层 $yi=σ(zi)=σ(wixi+bi)y_{i} = \sigma(z_{i}) = \sigma(w_{i}x_{i} + b_{i})$ ）

在这里插入图片描述

可以推导出：

在这里插入图片描述

而sigmoid的导数 $σ′(x)\sigma^{'}(x)$ 如下图所示：

在这里插入图片描述

可以知道， $σ′(x)\sigma^{'}(x)$ 的最大值是 $14\frac{1}{4}$ ，而我们初始化的权重 $∣ w ∣$ 通常都小于1，因此 $σ′(x)∣w∣<=14\sigma^{'}(x)|w| <= \frac{1}{4}$ ，而且链式求导层数非常多，不断相乘的话，最后的结果越来越小，趋向于0，就会出现梯度消失的情况。

梯度爆炸则相反， $σ′(x)∣w∣>1\sigma^{'}(x)|w| > 1$ 时，不断相乘结果变得很大。

梯度爆炸和梯度消失问题都是因为网络太深，网络权重更新不稳定造成的，本质上是因为梯度方向传播的连乘效应。

梯度爆炸和梯度消失的解决方法

预训练加微调。
梯度截断。
使用ReLU、LeakyReLU等激活函数。
加BN层。
使用残差结构。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git