CNN反向传播和普通神经网络的联系和比较

BP神经网络反向传播反向传播是BP神经网络的特点，在之前的博客中已经粗略介绍了BP神经元以及反向传播的特点，对反向传播用较为直观图示解释。本博客将重点介绍其反向传播的传播过程。首先明确概念，反向传播就是得到整个网络的输出对每个门单元的梯度的过程。举例说明，f(x1,x2,x3,x4)=(max(x1,x2)+x3)∗x4f(x1,x2,x3,x4)=(max(x1,x2)+x3)∗...

lanmengyiyu

1045人浏览 · 2017-12-26 22:45:25

lanmengyiyu · 2017-12-26 22:45:25 发布

BP神经网络反向传播

反向传播是BP神经网络的特点，在之前的博客中已经粗略介绍了BP神经元以及反向传播的特点，对反向传播用较为直观图示解释。

本博客将重点介绍其反向传播的传播过程。
首先明确概念，反向传播就是得到整个网络的输出对每个门单元的梯度的过程。

举例说明， f(x1,x2,x3,x4)=(max(x1,x2)+x3)∗x4 <script type="math/tex" id="MathJax-Element-1">f(x_1,x_2,x_3,x_4) = (max(x_1,x_2)+x_3)*x_4</script>

那么， dfdx1 <script type="math/tex" id="MathJax-Element-2">\frac{df}{dx_1}</script> , dfdx2 <script type="math/tex" id="MathJax-Element-3">\frac{df}{dx_2}</script>, dfdx3 <script type="math/tex" id="MathJax-Element-4">\frac{df}{dx_3}</script>, dfdx4 <script type="math/tex" id="MathJax-Element-5">\frac{df}{dx_4}</script> 如何计算，含义是什么？

1.如果 x1>x2 <script type="math/tex" id="MathJax-Element-6">x_1>x_2</script>, 那么 dfdx1=x4 <script type="math/tex" id="MathJax-Element-7">\frac{df}{dx_1}=x_4</script>，反之为0，也就是说如果 x1>x2 <script type="math/tex" id="MathJax-Element-8">x_1>x_2</script>，那么 x1 <script type="math/tex" id="MathJax-Element-9">x_1</script>对输出有影响，反之没影响
2.如果 x2>x1 <script type="math/tex" id="MathJax-Element-10">x_2>x_1</script>, 那么 dfdx2=x4 <script type="math/tex" id="MathJax-Element-11">\frac{df}{dx_2}=x_4</script>，反之为0，含义与 x1 <script type="math/tex" id="MathJax-Element-12">x_1</script>相同
3. dfdx3=x4 <script type="math/tex" id="MathJax-Element-13">\frac{df}{dx_3}=x_4</script>，这说明 x3 <script type="math/tex" id="MathJax-Element-14">x_3</script>的变化对整个输出的影响与 x4 <script type="math/tex" id="MathJax-Element-15">x_4</script>成正比
4. dfdx4=max(x1,x2)+x3 <script type="math/tex" id="MathJax-Element-16">\frac{df}{dx_4}=max(x_1,x_2)+x_3</script>，这说明 x4 <script type="math/tex" id="MathJax-Element-17">x_4</script>的变化对整个输出的影响与 max(x1,x2)+x3 <script type="math/tex" id="MathJax-Element-18">max(x_1,x_2)+x_3</script>成正比

其次，总结加法，乘法，最大值操作对梯度的作用。
1 加法门单元把输出的梯度相等地分发给它所有的输入
2 取最大值门单元对梯度做路由
3 乘法门单元是相互交换输入值

根据以上方法计算梯度，我们就可以知道，应该改变哪几个变量，才能使整个网络的loss function值最小，这也就完成了反向传播的过程

上述计算的梯度，我们可以借助雅可比矩阵（jacobi matrix）存储，雅可比矩阵的形式如下：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 ⋮ \partial y n \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 ⋮ \partial y n \partial x 2 \dots \dots ⋱ \dots \partial y 1 \partial x n \partial y 2 \partial x n ⋮ \partial y n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

x x <script type="math/tex" id="MathJax-Element-20">x</script>为4096维向量，

f = m a x (x, 0)

4096∗4096 4096 ∗ 4096 <script type="math/tex" id="MathJax-Element-22">4096*4096</script>

2.这个雅可比矩阵是怎样的？
只有对角线上有值，其余为0，并且如果 xi <script type="math/tex" id="MathJax-Element-23">x_i</script>小于0，那么雅可比矩阵第i行i列的值也为0，如果 xi <script type="math/tex" id="MathJax-Element-24">x_i</script>大于0，那么雅可比矩阵第i行i列的值为1

CNN反向传播

有了上面的讨论之后，CNN的反向传播就容易理解了很多，这里我们主要讨论卷积层和pooling层的反向传播。

卷积层

下面的图片引自CNN的反向传播

这里写图片描述

事实上，卷积层跟普通的全连接层的不同之处就在于参数的共享，也就是说，并不是每一个输入像素所对应的权重都不同，这主要是为了减少在图像领域参数过多导致的过拟合现象。而参数共享之所以可以得到很好的效果，与图像的局部相关性有关，某一个位置的像素可能只与周围一定范围内的像素相关，与距离很远的像素关系不大。

因此基于上述分析以及对于bp链式法则的了解，我们可以定义后一层的误差为 lossl <script type="math/tex" id="MathJax-Element-25">loss_l</script>，其中 l <script type="math/tex" id="MathJax-Element-26">l</script>表示层数。从而求前一层的误差 $l o s s_{l - 1}$ <script type="math/tex" id="MathJax-Element-27">loss_{l-1}</script>，以及权重的导数 dfdwl <script type="math/tex" id="MathJax-Element-28">\frac{df}{dw_l}</script>，以及偏置的导数 dfdbl <script type="math/tex" id="MathJax-Element-29">\frac{df}{db_l}</script>。

首先我们来计算误差 lossl−1 <script type="math/tex" id="MathJax-Element-30">loss_{l-1}</script>：

l o s s l - 1 = l o s s l . * d z l d a l - 1 . * σ' (z l - 1)

zl z l <script type="math/tex" id="MathJax-Element-32">z_l</script>表示第

l l <script type="math/tex" id="MathJax-Element-33">l</script>层的输入，

a_{l - 1}

l−1 l − 1 <script type="math/tex" id="MathJax-Element-35">l-1</script>层输出，那么这个问题就转换为，计算

dzldal−1 d z l d a l − 1 <script type="math/tex" id="MathJax-Element-36">\frac{dz_l}{da_{l-1}}</script>

以上图为例，我们计算左上角位置 (0,0) <script type="math/tex" id="MathJax-Element-37">(0,0)</script>的导数，因为这个像素只与粉色权重相乘，所以它的导数就是粉色权重。位置 (0,1) <script type="math/tex" id="MathJax-Element-38">(0,1)</script>的导数，在卷积核的滑动过程中会分别与绿色权重和粉色权重相连，因此，它的导数包括了这两部分。如果用公式来表示上述过程：

l o s s l - 1 = l o s s l . * r o t 180 (W l) . * σ' (z l - 1)

dfdwl d f d w l <script type="math/tex" id="MathJax-Element-40">\frac{df}{dw_l}</script>，以及偏置的导数

dfdbl d f d b l <script type="math/tex" id="MathJax-Element-41">\frac{df}{db_l}</script>就很容易计算了，分别为

al−1∗lossl a l − 1 ∗ l o s s l <script type="math/tex" id="MathJax-Element-42">a_{l-1}*loss_l</script>以及

lossl l o s s l <script type="math/tex" id="MathJax-Element-43">loss_l</script>

pooling层

pooling层理解起来就更为简单，将之前卷积层的计算公式照搬下来， dzldal−1 <script type="math/tex" id="MathJax-Element-44">\frac{dz_l}{da_{l-1}}</script>理解为对 lossl <script type="math/tex" id="MathJax-Element-45">loss_l</script>上采样之后求导。

l o s s l - 1 = l o s s l . * d z l d a l - 1 . * σ' (z l - 1)

那么这个上采样过程就分为两种，一种是average，一种是max。在average的计算中，将 lossl <script type="math/tex" id="MathJax-Element-47">loss_l</script>平分给每个位置，而max时，只把 lossl <script type="math/tex" id="MathJax-Element-48">loss_l</script>放在最大位置即可，其他与卷积的计算相同

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git