深度学习——LSTM原理与公式推导

LTSM神经网络和对话机器人实践

隔壁的NLP小哥

7175人浏览 · 2020-02-24 19:00:35

隔壁的NLP小哥 · 2020-02-24 19:00:35 发布

深度学习——LSTM原理与公式推导

1、 RNN回顾

1.1 RNN神经网络回顾

1.1.1 RNN概述

循环神经网络(RNN)，主要用于出来序列式问题，通过隐藏节点之间的相互连接，赋予了整个神经网络的记忆能力。对于RNN中的每一隐藏状态而言，其输入主要包括两个部分，一部分是正常接受输入数据的输入，另外一个输是将前一个隐藏状态节点作为下一个节点的输入。

1.1.2 RNN的网络构成图

在这里插入图片描述
上述是一个简单的正向传播的RNN网络结构，其中，Xi表示序列输入，中间表示的是隐藏层的节点，Oi表示输出。

1.1.3 RNN的传播公式

对于某一个隐藏层的状态节点 $S_t$ 而言，其前一个隐藏层的状态节点为 $S_{t-1}$ ，t时刻的输入为 $X_t$ ，则计算出来的 $S_t$ 的状态值为:

S_t = f_w(S_{t-1},X_t)

则

s_t

时刻的输出

o_t

为：

O_t = F_v(s_t)

其中

f_w

对应的是激活函数tanh，

f_v

对应的softmax函数。

1.1.4 RNN的局限性

距离问题：根据上面的介绍可以知道，RNN中的记忆性是通过隐藏状态节点之间的连接实现的。前一个状态节点作为当前隐藏状态的输入，就将之前的信息输入到了当前的节点之中。但是，根据上面的传播公式，RNN采用的激活函数为tanh，而tanh的将节点的计算结果压缩到了(-1,1)之间，当节点不断的向前传播的时候，这使得从前面传来的信息越来越少。也就是说越远节点的信息对当前节点的贡献度越小。如果切换成其他的大于1的激活函数，通过节点的不断前向传播，也可能造成梯度爆炸的问题。

1.1.6 RNN的改进

多层RNN网络：我们以两层的RNN网络为例，其基本的构成图如下：
在这里插入图片描述
上图是具有两层神经网络的RNN，第一层为蓝色，第二层为橘色，每一个输入分别向两层隐藏层的节点进行输入。其中，两个隐藏层的传播方向是相反的。

2、LSTM神经网络

2.1 LSTM神经网络概述

根据上面的介绍我们可以知道，单层的RNN网络单元的记忆能力是有限的，即每一个神经单元，离它越近，对它的贡献度越大。为了解决这种短记忆力的局限性，我们上面提出来多层RNN的概念，下面，我们来介绍另外一个解决距离问题的神经网络。长短时记忆网络(LSTM)网络。

2.2 LSTM神经网络结构

2.2.1 LSTM的神经单元结构

在这里插入图片描述
根据上面的LSTM神经单元的结构，我们可以对LSTM的细胞结构有一个大致的了解。每一个LSTM的神经单元是由细胞状态，输入门，遗忘门，输出门三个门所组成的。下面我们逐步对每一个门进行介绍。

2.2.1 输入门

其基本结构如下图：
在这里插入图片描述
输入门，顾名思义，就是复制处理当前神经单元的输入信息。整个的输入门包含的是两个部分，左侧是sigmoid激活函数，这个函数是用来决定什么样的输入信息会被更新。也就是忽略掉一定的输入信息。右侧是tanh部分，该部分的主要作用是用来构建出一个新的候选值向量，加入到当前的细胞状态中。
其中sigmoid输出的向量为
$I(t) = sigmoid(W_i^TS_{t-1}+U_i^TX_t + B_i)$
tanh输出的向量为：
$R(t) = tanh(W_r^TS_{t-1} + U_r^TX_t+B_r)$

2.2.2 遗忘门

其基本结构如图所示：
在这里插入图片描述
遗忘门的主要作用是用来决定当前的状态需要丢弃之前的那些信息。LSTM的通过学习来决定让网络记住那些内容。其主要的计算公式为：
$F(t)=sigmoid(W_f^TS_{t-1}+U_f^TX_t+B_f)$

2.2.3 细胞状态

所谓的细胞状态，我们可以将其理解为一个存储信息的容器，通过输入门，遗忘门，输出门的过程控制，逐步对容器中的信息进行增变化和输出。其具体结构为：
在这里插入图片描述
在每一个神经单元中，细胞状态经历了遗忘门的遗忘过程，输入门的输入过程以及向输出门进行输出信息的过程。计算过程为：
$C_t=C_{t-1}*F(t)$
$C_t = C_t+I(t)*R(t)$

2.2.4 输出门

在这里插入图片描述
输出门，主要控制的是当前隐状态的输出信息。其基本计算过程为：
$O(t)=sigmoid(W_o^TS_{t-1}+U_o^TX_{t}+B_o)$
$S_t=O(t)*tanh(C_t)$

2.3 LSTM前向传播过程总结

输入： $C_{t-1}，S_{t-1}，X_t$
遗忘门：
$net_F(t)=W_f^TS_{t-1}+U_f^TX_t+B_f$
$F(t)=sigmoid(net_F(t))$
细胞状态第一个改变：
$C_{t1}=C_{t-1}*F(t)$
输入门：
$net_I(t)=W_i^TS_{t-1}+U_i^TX_t+B_i$
$I(t)=sigmoid(net_I(t))$
$net_R(t)=W_r^TS_{t-1}+U_r^TX_t+B_r$
$R(t)=tanh(net_R(t))$
细胞状态第二次改变：
$C_t = C_{t1} + I(t)*R(t)$
输出门：
$net_O(t)=W_o^TS_{t-1}+U_o^TX_{t}+B_o$
$O (t) = s i g m o i d ()$
$S_t=tanh(C_t)*O(t)$

2.4 LSTM的反向传播过程

2.4.1 误差计算

现在，我们假设St时刻的总的误差为 $δ_{S_t}$ ，我们来计算各个门的相关误差

首先计算输出门的误差
$∂δSt∂O(t)=tanh(Ct)\frac{∂δ_{S_t}}{∂O(t)}=tanh(C_t)$
且有：
$∂O(t)∂netO(t)=O(t)∗(1−O(t))\frac{∂O(t)}{∂net_O(t)}=O(t)*(1-O(t))$
则有：
$δo(t)=∂δSt∂netO(t)=tanh(Ct)∗O(t)∗(1−O(t))δ_o(t)=\frac{∂δ_{S_t}}{∂net_O(t)}=tanh(C_t)*O(t)*(1-O(t))$

然后计算输入门的误差：
$∂δSt∂R(t)=∂δSt∂tanh(Ct)∗∂tanh(Ct)∂Ct∗∂Ct∂R(t)=O(t)∗(1−tanh2(Ct))∗I(t)\frac{∂δ_{S_t}}{∂R(t)}=\frac{∂δ_{S_t}}{∂tanh(C_t)}*\frac{∂tanh(C_t)}{∂C_t}*\frac{∂C_t}{∂R(t)}=\\ \frac{}{}\\ O(t)*(1-tanh^2(C_t) )*I(t)$
则有：
$δR(t)=∂δSt∂netR(t)=∂δSt∂R(t)∗∂R(t)∂netR(t)=O(t)∗(1−tanh2(Ct))∗I(t)∗(1−R2(t))δ_R(t)=\frac{∂δ_{S_t}}{∂net_R(t)}=\frac{∂δ_{S_t}}{∂R(t)}*\frac{∂R(t)}{∂net_R(t)}=\\ \frac{}{}\\ O(t)*(1-tanh^2(C_t) )*I(t)*(1-R^2(t))$
同理有：
$∂δSt∂I(t)=∂δSt∂tanh(Ct)∗∂tanh(Ct)∂Ct∗∂Ct∂I(t)=O(t)∗(1−tanh2(Ct))∗R(t)\frac{∂δ_{S_t}}{∂I(t)}=\frac{∂δ_{S_t}}{∂tanh(C_t)}*\frac{∂tanh(C_t)}{∂C_t}*\frac{∂C_t}{∂I(t)}=\\ \frac{}{}\\ O(t)*(1-tanh^2(C_t) )*R(t)$
则有：
$δI(t)=∂δSt∂netI(t)=∂δSt∂R(t)∗∂I(t)∂netI(t)=O(t)∗(1−tanh2(Ct))∗R(t)∗I(t)∗(1−I(t))δ_I(t)=\frac{∂δ_{S_t}}{∂net_I(t)}=\frac{∂δ_{S_t}}{∂R(t)}*\frac{∂I(t)}{∂net_I(t)}=\\ \frac{}{}\\ O(t)*(1-tanh^2(C_t) )*R(t)*I(t)*(1-I(t))$

然后是遗忘门的误差：

$∂δSt∂F(t)=∂δSt∂tanh(Ct)∗∂tanh(Ct)∂Ct∗∂Ct∂C(t1)∗∂C(t1)∂F(t)=O(t)∗(1−tanh2(Ct))∗Ct−1\frac{∂δ_{S_t}}{∂F(t)}=\frac{∂δ_{S_t}}{∂tanh(C_t)}*\frac{∂tanh(C_t)}{∂C_t}*\frac{∂C_t}{∂C_(t1)}*\frac{∂C_(t1)}{∂F(t)}=\\ \frac{}{}\\ O(t)*(1-tanh^2(C_t) )*C_{t-1}$
则有:
$δF(t)=∂δSt∂netF(t)=∂δSt∂F(t)∗∂F(t)∂netF(t)=O(t)∗(1−tanh2(Ct))∗Ct−1∗F(t)∗(1−F(t))δ_F(t)=\frac{∂δ_{S_t}}{∂net_F(t)}=\frac{∂δ_{S_t}}{∂F(t)}*\frac{∂F(t)}{∂net_F(t)}=\\ \frac{}{}\\ O(t)*(1-tanh^2(C_t) )*C_{t-1}*F(t)*(1-F(t))$

最后，我们要计算的是关于前一个时刻的误差：
$δSt−1=∂δSt∂St−1=∂δSt∂tanh(Ct)∗∂tanh(Ct)∂St−1∗O(t)+∂δSt∂O(t)∗∂O(t)∂St−1∗tanh(Ct)=∂δSt∂tanh(Ct)∗∂tanh(Ct)∂Ct∗∂Ct∂St−1∗O(t)+tanh(Ct)∗∂δSt∂O(t)∗∂O(t)∂netO(t)∗∂netO(t)∂St−1=WfδF(t)+WIδI(t)+WrδR(t)+WoδO(t)δ_{S_{t-1}}=\frac{∂δ_{S_t}}{∂S_{t-1}}=\frac{∂δ_{S_t}}{∂tanh(C_t)}*\frac{∂tanh(C_t)}{∂S_{t-1}}*O(t)+\frac{∂δ_{S_t}}{∂O(t)}*\frac{{∂O(t)}}{∂S_{t-1}}*tanh(C_t)\\ \frac{}{}\\ =\frac{∂δ_{S_t}}{∂tanh(C_t)}*\frac{∂tanh(C_t)}{∂C_t}*\frac{∂C_t}{∂S_{t-1}}*O(t)+tanh(C_t)*\frac{∂δ_{S_t}}{∂O(t)}*\frac{{∂O(t)}}{∂net_O(t)}*\frac{∂net_O(t)}{∂S_{t-1}}\\ \frac{}{}\\=W_fδ_F(t)+W_Iδ_I(t)+W_rδ_R(t)+W_oδ_O(t)$

2.4.2 梯度计算

我们来分别计算该误差对于 $W_o,W_i,W_r,W_f,U_o,U_i,U_r,U_f,B_o,B_i,B_r,B_f,S_{t-1}$ 的相关梯度。

$∂δSt∂Wo=St−1∂δSt∂netO(t)T=St−1δOT(t)\frac{∂δ_{S_t}}{∂W_o}=S_{t-1}\frac{∂δ_{S_t}}{∂net_O(t)}^T=S_{t-1}δ_O^T(t)$
$∂δSt∂Wr=St−1∂δSt∂netR(t)T=St−1δRT(t)\frac{∂δ_{S_t}}{∂W_r}=S_{t-1}\frac{∂δ_{S_t}}{∂net_R(t)}^T=S_{t-1}δ_R^T(t)$
$∂δSt∂Wi=St−1∂δSt∂netR(t)T=St−1δRT(t)\frac{∂δ_{S_t}}{∂W_i}=S_{t-1}\frac{∂δ_{S_t}}{∂net_R(t)}^T=S_{t-1}δ_R^T(t)$
$∂δSt∂Wf=St−1∂δSt∂netF(t)T=St−1δFT(t)\frac{∂δ_{S_t}}{∂W_f}=S_{t-1}\frac{∂δ_{S_t}}{∂net_F(t)}^T=S_{t-1}δ_F^T(t)$
$∂δSt∂Uo=Xt∂δSt∂netO(t)T=XtδOT(t)\frac{∂δ_{S_t}}{∂U_o}=X_t\frac{∂δ_{S_t}}{∂net_O(t)}^T=X_tδ_O^T(t)$
$∂δSt∂Ur=Xt∂δSt∂netR(t)T=XtδRT(t)\frac{∂δ_{S_t}}{∂U_r}=X_t\frac{∂δ_{S_t}}{∂net_R(t)}^T=X_tδ_R^T(t)$
$∂δSt∂Ui=Xt∂δSt∂netR(t)T=XtδRT(t)\frac{∂δ_{S_t}}{∂U_i}=X_t\frac{∂δ_{S_t}}{∂net_R(t)}^T=X_tδ_R^T(t)$
$∂δSt∂Uf=Xt∂δSt∂netF(t)T=XtδFT(t)\frac{∂δ_{S_t}}{∂U_f}=X_t\frac{∂δ_{S_t}}{∂net_F(t)}^T=X_tδ_F^T(t)$
$∂δSt∂Bo=δO(t)\frac{∂δ_{S_t}}{∂B_o}=δ_O(t)$
$∂δSt∂BI=δI(t)\frac{∂δ_{S_t}}{∂B_I}=δ_I(t)$
$∂δSt∂BR=δR(t)\frac{∂δ_{S_t}}{∂B_R}=δ_R(t)$
$∂δSt∂BF=δF(t)\frac{∂δ_{S_t}}{∂B_F}=δ_F(t)$

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手