1. 计算顺序

  • 前向微分(前向模式)

    • 从输入到输出逐层计算:沿计算图的正向顺序(输入层 → 输出层),同时计算函数值和导数。

    • 每一步同步更新导数:每个中间变量的导数随值一起计算,例如,对输入变量 x 的导数逐层传递。

  • 后向微分(反向模式)

    • 先完成前向计算,再反向传播导数

      1. 前向过程:计算所有中间变量的值(输入层 → 输出层)。

      2. 反向过程:从输出层开始,按链式法则反向计算梯度(输出层 → 输入层)。

2. 计算复杂度

  • 前向微分

    • 计算单个输入的导数效率高,但输入多时效率低

    • 若输入有 n 个变量,需运行 n 次前向模式才能得到全部梯度。

    • 适用场景:输入维度低(如 n 小)、输出维度高(如 m 大)。

  • 后向微分

    • 一次反向传播即可计算所有输入的导数,输入多时效率高

    • 若输出是标量(如神经网络的损失函数),仅需一次反向传播即可获得全部参数的梯度。

    • 适用场景:输出维度低(如标量)、输入维度高(如神经网络参数数量大)。

3. 在神经网络中的应用

  • 前向微分

    • 较少用于神经网络训练,因为网络参数通常数量庞大(输入维度高),多次前向计算代价过高。

    • 可能在特定场景使用,如实时计算单个参数的敏感度。

  • 后向微分

    • 反向传播(Backpropagation)是反向模式的具体实现,是神经网络训练的基石。

    • 高效计算损失函数对百万级参数的梯度,支撑梯度下降优化。

4. 内存与实现

  • 前向微分

    • 内存占用低:仅需保存当前变量的值和导数,无需存储整个计算图。

    • 实现简单,适合嵌入式系统等资源受限场景。

  • 后向微分

    • 内存占用高:需存储前向过程的所有中间变量,以便反向计算梯度。

    • 实现复杂,依赖计算图构建和动态跟踪(如 PyTorch 的 Autograd)。

 5. 示例对比

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐