人工神经网络:反向传播算法的数学基础(Part4)

lcharm

626人浏览 · 2017-08-23 22:49:48

lcharm · 2017-08-23 22:49:48 发布

文本翻译自briandolhansky的神经网络系列文章,本文是第四部分.
注: 此文章为译者初次尝试翻译, 加上非数学专业出身, 工作忙碌闲暇时间较少,因此在专业术语和词语表达上多有不当之处. 如有疑问欢迎评论交流.

目前为止,我们还没有看到神经网络强大的非线性能力 — 我们目前所使用的单层模型, 像多项逻辑斯地回归, 二项逻辑斯蒂回归均是线性模型. 这些单层模型的求导都很简单, 权重的输入可以直接从结果反推. 不过单层模型连在一起形成神经网络时, 又会如何.

权重的增加和结果的变化之间不再是线性关系, 任意一个节点的改变都会导致后面层上的节点的变化, 那么在神经网我们该如何计算所有权重的梯度值 ? – 反向传播算法应运而生.
反向传播算法的核心在于在所有可能的传播路径上迭代的使用链式求导法则. 随着神经网络尺寸的增到从输入到输入之间的路径指数级的增加, 神经网络算法的优势逐渐凸显, 它以动态规划算法的形式重复使用中间结果来计算梯度, 极大地加快了计算速度, 在此过程中我们将误差(cost)从输出传回输入, 这也是反向传播算法命名的由来. 反向传播与正向传播密切相关, 正向传播将输入向前传递至结果, 反向传播将误差向后传播回结果

许多介绍神经网络的文章直接给出通用用公式, 往往使得深入学习神经网络变得困难. 本文将通过手算梯度值来逐步深入推到公式,如此虽然增加了文章的长度, 但更容易让初学者上手, 这是我认为最好的学习反向传播算法的方式.

反向传播的基本规则

首先明确一点:训练神经网络的最终目标是找到权重值组合使得损失函数的值最小.

\partial E \partial w i \to j

结合随机梯度下降算法可以更新权重值:

w i \to j = w i \to j - η * \partial E \partial w i \to j

(1).单个输入和单个输出

假设神经网络的构成如下:

简单的单一传播路径神经网络

图中每个变量值得求解如下:

s j = w 1 * x i z j = σ (s j) = σ (w 1 * x j) s k = w 2 * z j z k = σ (s 2) = σ (w 2 * σ (w 1 * x i)) s o = w 3 * z k y i^= i o = w 3 * σ (w 2 * σ (w 1 * x i)) E = 1 2 (y i^- y i) 2 = 1 2 (w 3 * σ (w 2 * σ (w 1 * x i)) - y i) 2

wi <script type="math/tex" id="MathJax-Element-110">w_i</script>的倒数, 以下为手动求解步骤, 在此过程中, 不同变量的导数会用不同的颜色标记, 希望读者可以找出相应的规律. 首先, 让我们求出

wk→0 <script type="math/tex" id="MathJax-Element-111">w_{k\rightarrow 0}</script>(提示: 结果

yi^=wk→ozk <script type="math/tex" id="MathJax-Element-112">\hat{y_i}=w_{k\rightarrow o}z_k</script>为线性转换) :

\partial E \partial w k \to o = \partial \partial w k \to o 1 2 (y i^- y i) 2 = \partial \partial w k \to o 1 2 (w k \to o z k - y i) 2 = w k \to o z k \partial \partial w k \to o (w k \to o z k - y i) = y i^- y i (z k)

wj→k <script type="math/tex" id="MathJax-Element-114">w_{j\rightarrow k}</script>同样简单:

\partial E \partial w j \to k = \partial E \partial w j \to k (y i^- y i) 2 = (y i^- y i) (\partial \partial w j \to k (w k \to o σ (w j \to k z j) - y i)) = (y i^- y i) w k \to o σ (s k) σ (1 - s k) \partial \partial w j \to k (w j \to k . z j) = (y i^- y i) w k \to o (σ (s k) σ (1 - s k) (z j)

wi→j <script type="math/tex" id="MathJax-Element-116">w_{i\rightarrow j}</script>:

\partial E \partial w i \to j = \partial \partial w i \to j 1 2 (y i^- y i) 2 = (y i^- y i) (\partial \partial w i \to j (y i^- y i)) = (y i^- y i) (w k \to o) (\partial \partial w i \to j (σ (w j \to k σ (w i \to j x i))) = (y i^- y i) (w k \to o) (σ (s k) (1 - σ (s k)) (w j \to k) (\partial \partial w i \to j σ (w i \to j x i)) = (y i^- y i) (w k \to o) (σ (s k) (1 - σ (s k)) (w j \to k) (σ (s j) (1 - σ (s j))) x i

k <script type="math/tex" id="MathJax-Element-118">k</script>输出

sk<script type="math/tex" id="MathJax-Element-119">s_k</script>的加权导数, 神经元

j <script type="math/tex" id="MathJax-Element-120">j</script>输出

sj<script type="math/tex" id="MathJax-Element-121">s_j</script>的加权导数.
以上可以得出, 对于这个简单神经网络:

Δ w i \to j = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k))) w j \to k (σ (s j)) (1 - σ (s j)) (x i)] Δ w j \to k = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k)) (z j)] Δ w k \to o = - η [((̂ y i) - y i) (z k)]

(2).神经元存在多个输入

当一个神经元有多个输入时:

当一个神经元有多个输入时, 每个输入导数的求解相比与一个输入时有什么不同? wi→k <script type="math/tex" id="MathJax-Element-129">w_{i\rightarrow k}</script>的求解方法是否受 wj→k <script type="math/tex" id="MathJax-Element-130">w_{j\rightarrow k}</script>的更新影响? wi→k <script type="math/tex" id="MathJax-Element-131">w_{i\rightarrow k}</script>的导数计算如下:

\partial E w i \to k = \partial w i \to k 1 2 (y i^- y i) 2 = (y i^- y i) (\partial w i \to k z k w k \to o) = (y i^- y i) (w k \to o) (\partial w i \to k σ (s k)) = (y i^- y i) ((σ (s k) (1 - σ (s k)) w k \to o) (\partial w i \to j (z i w i \to k + z j w j \to k)) = (y i^- y i) ((σ (s k) (1 - σ (s k)) w k \to o) z i

wi→k <script type="math/tex" id="MathJax-Element-133">w_{i\rightarrow k}</script>导数计算不受

wj→k <script type="math/tex" id="MathJax-Element-134">w_{j\rightarrow k}</script>的影响, 得到求导的第一条法则:在同一个层级上, 每个神经元权重的求导各自独立, 互不影响. 本条规则比较直观, 易于理解. 权重的更新不依赖于本层其他神经元的权重值, 只依赖于后面层级神经元的权重值. 这条法则便于后向传播算法的求解.

(3).神经元存在多个输出

现在我们讨论一下当一个神经元有多个输出的情况.

与前一节的神经网络相比,该神经网络的新增了 win→i <script type="math/tex" id="MathJax-Element-141">w_{in\rightarrow i}</script>这一部分, 这样神经元i便存在两个中间的继承者, 因此, 我们需要对起源于i的所有路径上的误差累积进行求和. 求导过程如下( σi(⋅) 表示神经元i的激活函数):

\partial E w i n \to i = \partial w i n \to i 1 2 (y i^- y i) 2 = (y i^- y i) (\partial w i n \to i (z j w j \to o + z k w k \to o)) = (y i^- y i) (\partial w i n \to i (σ j (s j) w j \to o + σ k (s k) w k \to o)) = (y i^- y i) (w j \to o σ' j (s j) \partial w i n \to i s j + w k \to o σ' k (s k) \partial w i n \to i s k) = (y i^- y i) (w j \to o σ' j (s j) \partial w i n \to i z i w i \to j + w k \to o σ' k (s k) \partial w i n \to i (z i w i \to k)) = (y i^- y i) (w j \to o σ' j (s j) \partial w i n \to i σ i (s i) w i \to j + w k \to o σ' k (s k) \partial w i n \to i (σ j (s j) w i \to k)) = (y i^- y i) (w j \to o σ' j (s j) w i \to j σ' i (s i) \partial w i n \to i s i + w k \to o σ' k (s k) w i \to k σ' i (s i) \partial w i n \to i s j) = (y i^- y i) (w j \to o σ' j (s j) w i \to j σ' i (s i) + w k \to o σ' k (s k) w i \to k σ' i (s i)) x i

sj=σ(wjsj−1+b) <script type="math/tex" id="MathJax-Element-143">s_j=\sigma(w_js_{j-1}+b)</script>是指

sj−1 <script type="math/tex" id="MathJax-Element-144">s_{j-1}</script>的误差需要乘上

wj <script type="math/tex" id="MathJax-Element-145">w_j</script>, 即加权–wighted). 每到达一个神经元我们都是用加权的后向传播误差乘上该神经元的导数, 直到到达初始输入层

X <script type="math/tex" id="MathJax-Element-146">X</script>. 后向传播算法和前向传播算法类似, 都属于递归算法. 下一节中我将引入误差信号(error signal)这一概念, 这一概念帮助我们以一种简洁的方式重定义权重求导公式.

误差信号

一步一步推导出所有权重的导数相当繁琐, 尤其当神经网络中含有大量的神经元和隐含层时, 逐个更新更是不切实际. 在上一章节在误差向后传播的过程中具有一定规律, 固定的模式不断重现, 这有助与归纳出通用后向传播算法. 本章节我们引入误差信号的概念, 即误差在每一个神经元上的累加值. 为了简化过程便于理解, 假设样本数为1, 因此ŷ =yi^<script type="math/tex" id="MathJax-Element-186">\hat{y} = \hat{y_i}</script>, 本节均使用 ŷ <script type="math/tex" id="MathJax-Element-187">\hat{y}</script>.
神经元 j <script type="math/tex" id="MathJax-Element-188">j</script>的递归误差信号定义如下:

δ j = \partial E \partial s j

j <script type="math/tex" id="MathJax-Element-190">j</script>对结果的误差变化的贡献, 即当

j<script type="math/tex" id="MathJax-Element-191">j</script>改变

Δj <script type="math/tex" id="MathJax-Element-192">\Delta j</script>时, 结果

E <script type="math/tex" id="MathJax-Element-193">E</script>的变化量的大小 – – 微积分中的导数. 后面可以看出在反向传播计算中

δj<script type="math/tex" id="MathJax-Element-194">\delta_j</script>帮助我们极大的简化我们求解过程. 展开

δj <script type="math/tex" id="MathJax-Element-195">\delta_j</script>可以得到:

δ j = \partial E \partial s j = \partial \partial s j 1 2 (y ̂ - y) 2 = (y ̂ - y) \partial y ̂ \partial s j

j <script type="math/tex" id="MathJax-Element-197">j</script>为输出层,

ŷ =fj(sj)<script type="math/tex" id="MathJax-Element-198">\hat y=f_j(s_j)</script>(

(fj(⋅) <script type="math/tex" id="MathJax-Element-199">(f_j(\cdot)</script>为

sj <script type="math/tex" id="MathJax-Element-200">s_j</script>的激活函数),

∂ŷ ∂sj <script type="math/tex" id="MathJax-Element-201">\frac{\partial \hat y}{\partial s_j}</script> 等于

f′j(sj) <script type="math/tex" id="MathJax-Element-202">f_j'(s_j)</script>, 从而

δj=(ŷ −y)f′j(sj) <script type="math/tex" id="MathJax-Element-203">\delta_j=(\hat y - y)f_j'(s_j)</script>.
若神经元

j <script type="math/tex" id="MathJax-Element-204">j</script>为隐含层, 其输出神经元为

k<script type="math/tex" id="MathJax-Element-205">k</script>时(

k∈outs(j) <script type="math/tex" id="MathJax-Element-206">k\in\text{outs}(j)</script>), 依据微分链式法则进一步展开

∂ŷ ∂sj <script type="math/tex" id="MathJax-Element-207">\frac{\partial \hat y}{\partial s_j}</script>:

\partial y ̂ \partial s j = \partial y ̂ \partial z j \partial z j \partial s j = \partial y ̂ \partial z j f' j (s j)

∂ŷ zj <script type="math/tex" id="MathJax-Element-209">\frac{\partial \hat y}{z_j}</script>的求解, 所有的

k <script type="math/tex" id="MathJax-Element-210">k</script>,

k∈outs(j)<script type="math/tex" id="MathJax-Element-211">k\in\text{outs(j)}</script>的值都依赖于

j <script type="math/tex" id="MathJax-Element-212">j</script>. 根据在<3.一个神经元有多个输出>一节的结论可知,

δzj<script type="math/tex" id="MathJax-Element-213">\delta z_j</script>求解依赖于每个输出路径上的误差. 具体分析, 对于每个输出

k <script type="math/tex" id="MathJax-Element-214">k</script>都有

sk=zjwj→k<script type="math/tex" id="MathJax-Element-215">s_k= z_jw_{j\rightarrow k}</script>, 并且同一层级上

Sk <script type="math/tex" id="MathJax-Element-216">S_k</script>的计算相互独立, 依据链式法则, 累加所有的神经元

k∈outs(j) <script type="math/tex" id="MathJax-Element-217">k\in\text{outs}(j)</script>可以得出:

\partial y ̂ \partial s j = f' j (s j) \sum k \in outs (j) \partial y ̂ \partial s k \partial s k \partial z j = f' j (s j) \sum k \in outs (j) \partial y ̂ \partial s k w j \to k

δj=(ŷ −y)∂ŷ ∂sj <script type="math/tex" id="MathJax-Element-219">\delta_j=(\hat y - y)\frac{\partial \hat y}{\partial s_j}</script>可得:

δ j = (y ̂ - y) f' j (s j) \sum k \in outs (j) \partial y ̂ \partial s k w j \to k

sk=(ŷ −y)∂y∂sk <script type="math/tex" id="MathJax-Element-221">s_k=(\hat y -y)\frac{\partial y}{\partial s_k}</script>, 将上式的

(ŷ −y) <script type="math/tex" id="MathJax-Element-222">(\hat y - y)</script>移至

∑ <script type="math/tex" id="MathJax-Element-223">\sum</script>内, 我们可以得出一下的递归公式:

δ j = f' j (s j) δ k w j \to k

后向传播算法的一般形式

回顾第一节我们用到的神经网络:

该神经网络上所有错误误差的求解如下:

δ o δ k δ j = (y ̂ - y) (线 性 方 程 的 导 数 为 1) = δ o w k \to o σ (s k) (1 - σ (s k) = δ k w j \to k σ (s j) (1 - σ (s j)

Δ w i \to j = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k))) w j \to k (σ (s j)) (1 - σ (s j)) (x i)] Δ w j \to k = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k)) (z j)] Δ w k \to o = - η [((̂ y i) - y i) (z k)]

Δ w k \to o Δ w j \to k Δ w i \to j = - η δ 0 z k = - η δ k z j = - η δ j z i

错误误差的求解如下:

δ o δ k δ j δ i = (y ̂ - y) = δ o w k \to o σ (s k) (1 - σ (s k)) = δ k w j \to k σ (s j) (1 - σ (s j)) = σ (s i) (1 - σ (s i)) \sum k \in outs (i) δ k w i \to k

Δ W k \to o Δ w j \to o Δ w i \to k Δ w i \to j Δ w i n \to i = - η δ o z k = - η δ 0 z j = - η δ k z i = - η δ j z i = - η δ i x i

Δwi→j=−ηδjzi <script type="math/tex" id="MathJax-Element-247">\Delta w_{i\rightarrow j} = -\eta\delta_jz_i</script>.
最后要考虑的是使用批量数据算法(minibatch)更新梯度时, 公式变化情况. 通常每个样本都是独立的, 将所有样本的更新值累加起来便得到了一个权重的总更新值.(一般会除以样本数量N, 这样权重更新值不敏感于样本量的大小). 我们使用

yi <script type="math/tex" id="MathJax-Element-248">y_i</script>代表第i个样本, 将其作为上标带入上式中可得:

Δ w i \to j = - η N \sum y i δ (y i) j z (j i) j

s(yi)j <script type="math/tex" id="MathJax-Element-250">s_j^{(y_i)}</script>和

z(yi)j <script type="math/tex" id="MathJax-Element-251">z_j^{(y_i)}</script>.
2. 计算每个样本

yi <script type="math/tex" id="MathJax-Element-252">y_i</script>神经元的误差信号

δ(yi)j <script type="math/tex" id="MathJax-Element-253">\delta_j^{(y_i)}</script>.如果

j <script type="math/tex" id="MathJax-Element-254">j</script>是输出层,

δj=f′j(s(yi)j)(yi^−y)<script type="math/tex" id="MathJax-Element-255">\delta_j = f_j'(s_j^{(y_i)})(\hat{y_i} -y)</script>. 否则

j <script type="math/tex" id="MathJax-Element-256">j</script>为隐含层,

δj=f′j(s(yi)j)∑k∈outs(j)δ(yi)kwj→k<script type="math/tex" id="MathJax-Element-257">\delta_j = f_j'(s_j^{(y_i)})\sum_{k\in\text{outs}(j)}\delta_k^{(y_i)}w_{j\rightarrow k}</script>.
3. 根据公式

Δwi→j=−ηN∑yiδ(yi)jz(ji)j <script type="math/tex" id="MathJax-Element-258">\Delta w_{i\rightarrow j} = -\frac{\eta}{N}\sum_{y_i}\delta_j^{(y_i)}z_j^{(j_i)}</script>更新权重.

总结

希望通过本部分内容你可以全面的掌握后向传播算法的求解(译者注: 英文可以的朋友最好看原文 :-) 点击这里). 但是部分的公式的可编程性和扩展性仍然很差, 下一部分会拓展此公式成矩阵形式. 提供一个简单的神经网络模型, 并且用它来训练MNIST数据集.

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git