深度学习-链式求导法则

假设有两个函数 ( f ) 和 ( g )，其中 ( f ) 是 ( g ) 的函数，即 ( f ) 和 ( g ) 的复合函数为 ( h(x) = f(g(x)) )。ddxfgxdfdg⋅dgdxdxdfgx))dgdf⋅dxdg也就是说，复合函数 ( h(x) ) 的导数等于外层函数 ( f ) 对中间函数 ( g ) 的导数，乘以中间函数 ( g ) 对 ( x ) 的导数。

Carrie_Lei

3118人浏览 · 2024-09-06 20:01:54

Carrie_Lei · 2024-09-06 20:01:54 发布

链式法则（Chain Rule）是微积分中的一种重要法则，用于计算复合函数的导数。在深度学习和反向传播算法中，链式法则是计算梯度的核心方法之一。

链式法则的定义

假设有两个函数 ( f ) 和 ( g )，其中 ( f ) 是 ( g ) 的函数，即 ( f ) 和 ( g ) 的复合函数为 ( h(x) = f(g(x)) )。链式法则的核心在于：

$\frac{d}{dx} f(g(x)) = \frac{d f}{d g} \cdot \frac{d g}{d x}$

也就是说，复合函数 ( h(x) ) 的导数等于外层函数 ( f ) 对中间函数 ( g ) 的导数，乘以中间函数 ( g ) 对 ( x ) 的导数。

在深度学习中的应用

在神经网络的反向传播中，链式法则用于计算损失函数对每一层权重的梯度。假设我们有一个多层前馈神经网络，目标是计算损失函数对网络中每个权重的梯度。

例子：单层神经网络的链式法则

假设有一个简单的神经网络层，包括输入 ( x )、权重 ( w )、偏置 ( b ) 和激活函数 ( $σ\sigma$ )，输出为 ( a )。损失函数为 ( L )，我们希望计算损失函数对权重 ( w ) 的梯度。

前向传播：
$\cdot x + b$
$\sigma(z)$
$\text{Loss}(a, y)$
计算梯度：
- 计算损失函数 ( L ) 对激活值 ( a ) 的梯度：
  $\frac{\partial L}{\partial a}$
- 计算激活函数 ( $σ\sigma$ ) 对 ( z ) 的梯度：
  $\frac{\partial a}{\partial z} = \sigma'(z)$
- 计算 ( z ) 对权重 ( w ) 的梯度：
  $\frac{\partial z}{\partial w} = x$
- 使用链式法则计算损失函数 ( L ) 对权重 ( w ) 的梯度：
  $\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}$

代码示例

以下是一个简单的 Python 代码示例，演示如何使用链式法则计算神经网络中的梯度：

import numpy as np

# 激活函数及其导数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# 假设数据
x = np.array([0.5])  # 输入
w = np.array([0.2])  # 权重
b = 0.1  # 偏置
y = np.array([0.7])  # 实际目标

# 前向传播
z = w * x + b
a = sigmoid(z)

# 计算损失（均方误差）
loss = 0.5 * (a - y) ** 2

# 反向传播（链式法则）
dL_da = a - y  # 损失函数对激活值的梯度
da_dz = sigmoid_derivative(z)  # 激活函数对 z 的梯度
dz_dw = x  # z 对权重 w 的梯度

# 使用链式法则计算损失函数对权重的梯度
dL_dw = dL_da * da_dz * dz_dw

print(f'损失对权重的梯度: {dL_dw}')

总结

链式法则是深度学习中梯度计算的核心，通过逐层计算导数并将其组合来计算复合函数的梯度。在神经网络的反向传播中，链式法则使得我们能够高效地计算损失函数对每个参数的梯度，并利用这些梯度更新模型参数，从而优化网络性能。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git