BP神经网络：误差反向传播公式的简单推导

最近看了一下BP神经网络(Backpropagation Neural Networks)，发现很多资料对于BP神经网络的讲解注重原理，而对于反向传播公式的推导介绍的比较简略，故自己根据《PATTERN RECOGNITION AND MACHINE LEARNING》这本书的思路推导了一下反向传播的过程，记录在这里，以便以后看。

Meringue_zz

26195人浏览 · 2017-01-07 17:43:55

Meringue_zz · 2017-01-07 17:43:55 发布

PS: 本人第一次写博客，不足之处还请见谅。

1. BP网络模型及变量说明

1.1 模型简图

1.2 变量说明：

ml<script type="math/tex" id="MathJax-Element-1">m_l</script>：第l<script type="math/tex" id="MathJax-Element-2">l</script>层神经元个数
x(1)p<script type="math/tex" id="MathJax-Element-3">x_p^{(1)}</script>: 输入层第p<script type="math/tex" id="MathJax-Element-4">p</script>个神经元，p=1...m1<script type="math/tex" id="MathJax-Element-5">p=1...m_1</script>；
yk<script type="math/tex" id="MathJax-Element-6">y_k</script> : 输出层第k<script type="math/tex" id="MathJax-Element-7">k</script>的神经元的输出，k=1...ml+1<script type="math/tex" id="MathJax-Element-8">k=1...m_{l+1}</script>；
tk<script type="math/tex" id="MathJax-Element-9">t_k</script>：输出层第k<script type="math/tex" id="MathJax-Element-10">k</script>的神经元的目标值，k=1...ml+1<script type="math/tex" id="MathJax-Element-11">k=1...m_{l+1}</script>；
z(l)j<script type="math/tex" id="MathJax-Element-12">z_j^{(l)}</script>：第l<script type="math/tex" id="MathJax-Element-13">l</script>层的第j<script type="math/tex" id="MathJax-Element-14">j</script>的神经元的输入；
a(l)j<script type="math/tex" id="MathJax-Element-15">a_j^{(l)}</script>：第l<script type="math/tex" id="MathJax-Element-16">l</script>层第j<script type="math/tex" id="MathJax-Element-17">j</script>个神经元的输出；
a(l)0<script type="math/tex" id="MathJax-Element-18">a_0^{(l)}</script>：第l<script type="math/tex" id="MathJax-Element-19">l</script>层的偏置项；
w(l)ji<script type="math/tex" id="MathJax-Element-20">w_{ji}^{(l)}</script>：第l−1<script type="math/tex" id="MathJax-Element-21">l-1</script>层第i<script type="math/tex" id="MathJax-Element-22">i</script>个神经元与第l<script type="math/tex" id="MathJax-Element-23">l</script>层第j<script type="math/tex" id="MathJax-Element-24">j</script>个神经元的连接权值；
h(.)<script type="math/tex" id="MathJax-Element-25">h(.)</script>：激活函数，这里假设每一层各个神经元的激励函数相同（实际中可能不同）；
Ep<script type="math/tex" id="MathJax-Element-26">E_p</script>：网络在第p<script type="math/tex" id="MathJax-Element-27">p</script>个样本输入下的偏差，n=1...N<script type="math/tex" id="MathJax-Element-28">n=1...N</script>；
N<script type="math/tex" id="MathJax-Element-29">N</script>：样本总数

2. 误差反向传播相关推导

2.1 正向传播（forward-propagation）

正向传播的思想比较直观，最主要的是对于激活函数的理解。对于网络中第l<script type="math/tex" id="MathJax-Element-30">l</script>层的第j<script type="math/tex" id="MathJax-Element-31">j</script>个神经元，它会接受来自第l−1<script type="math/tex" id="MathJax-Element-32">l-1</script>层所有神经元的信号，即：

z (l) j = \sum i = 1 m l - 1 w j i a (l - 1) i + a (l - 1) 0

wj0=1<script type="math/tex" id="MathJax-Element-34">w_{j0}=1</script>，可以将公式简写为：

z (l) j = \sum i = 0 m l - 1 w j i a (l - 1) i

a (l) j = h (z (l) j)

k<script type="math/tex" id="MathJax-Element-37">k</script>个神经元输出可表示为：

y k = a (l + 1) k = h (z j) = h (\sum j = 0 m l w k j a (l) j)

sigmoid<script type="math/tex" id="MathJax-Element-39">sigmoid</script>函数或

tanh<script type="math/tex" id="MathJax-Element-40">tanh</script>函数，不清楚的可以百度一下这两个函数，这里不再赘述。

2.2 代价函数（cost function）

由2.1节公式可以得到BP网络在一个样本下的输出值，我们定义平方和误差函数（sum-of-square error function）如下：

E p = \sum k = 1 m l + 1 1 2 (y k - t k) 2

E N = \sum p = 1 N E p

2.3 反向传播（back-propagation）

这是BP神经网络最核心的部分，误差从输出层逐层反向传播，各层权值通过梯度下降法（gradient descent algorithm）进行更新，即：

w : = w - η ▽ E p (w)

η<script type="math/tex" id="MathJax-Element-82">\eta</script>是每次更新的步长，

▽Ep(w)<script type="math/tex" id="MathJax-Element-83">\bigtriangledown{E_p}(w)</script>是第

p<script type="math/tex" id="MathJax-Element-84">p</script>个样本输入下的输出偏差对某一层权值的偏导数，表示每输入一个样本更新一次参数。

下面我们以w(l)ji<script type="math/tex" id="MathJax-Element-85">w_{ji}^{(l)}</script>为例推导梯度项：

\partial E p \partial w ( l ) j i = = \partial E p \partial z ( l ) j \partial z ( l ) j \partial w ( l ) j i \partial E p \partial z ( l ) j a (l - 1) i

这里我们定义δ(l)j=∂Ep∂z(l)j<script type="math/tex" id="MathJax-Element-87">\delta_j^{(l)}=\dfrac{\partial E_p}{\partial z_j^{(l)}} </script>，对于输出层，可以得出δ(l+1)k=yk−tk=a(l+1)k−tk<script type="math/tex" id="MathJax-Element-88">\delta_k^{(l+1)}=y_k-t_k=a_k^{(l+1)}-t_k</script>，则上式可表示为：

\partial E p \partial w ( l ) j i = δ (l) j a (l - 1) i

现在问题转换为求解δ(l+1)k<script type="math/tex" id="MathJax-Element-90">\delta_k^{(l+1)}</script>:

δ (l) j = = \partial E p \partial z ( l ) j \sum k = 1 m l + 1 \partial E p \partial z ( l + 1 ) k \partial z ( l + 1 ) k \partial z ( l ) j

根据δ<script type="math/tex" id="MathJax-Element-92">\delta</script>的定义可知∂Ep∂z(l+1)k=δ(l+1)k<script type="math/tex" id="MathJax-Element-93">\dfrac{\partial E_p}{\partial z_k^{(l+1)}} = \delta_k^{(l+1)}</script>，代入上式，则：

δ (l) j = = \sum k = 1 m l + 1 δ (l + 1) k \partial z ( l + 1 ) k \partial z ( l ) j \sum k = 1 m l + 1 δ (l + 1) k \partial z ( l + 1 ) k \partial a ( l ) j \partial a ( l ) j \partial z ( l ) j

根据z(l+1)k<script type="math/tex" id="MathJax-Element-95">z_k^{(l+1)}</script>和alj<script type="math/tex" id="MathJax-Element-96">a_j^l</script>的定义可知：

\partial z ( l + 1 ) k \partial a ( l ) j = w (l + 1) k j \partial a ( l ) j \partial z ( l ) j = h' (z (l) j)

代入上式得：

δ (l) j = = \sum k = 1 m l + 1 δ (l + 1) k w (l + 1) k j h' (z (l) j) h' (z (l) j) \sum k = 1 m l + 1 w (l + 1) k j δ (l + 1) k

由此我们得到了误差从输出层向低层反向传播的递推公式，进而可以求出误差对于每一层权值的梯度▽Ep(w)<script type="math/tex" id="MathJax-Element-99">\bigtriangledown{E_p}(w)</script>

3. 总结

BP神经网络是应用最多的一种神经网络，其精髓在于误差反向传播。本人在学习这块内容是为了给接下来学习和研究深度学习及caffe做准备，由于个人水平有限，在上述推导中可能存在不合理的地方，还请见谅，同时也欢迎指出内容的不足之处。

4. 参考文献

[1] 周志华，机器学习[M] , 清华大学出版社，2016.
[2] CHRISTOPHER M.BISHOP. PATTERN RECOGNITION AND MACHINE LEARNING [M], 2006.

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git