机器学习基础整理(第六章) - 神经网络

文章目录总览神经元模型 (Models of a neuron)通用激活函数 (Common Activation Functions)阈值函数 (Threshold Function)逻辑函数 (Logistic Function)整流线性单元 (Rectified Linear Unit - ReLU)Softmax激活函数其他激活函数优点网络架构 (Network Architecture)

王踹踹

2249人浏览 · 2021-06-12 00:44:28

王踹踹 · 2021-06-12 00:44:28 发布

文章目录

总览
神经元模型 (Models of a neuron)
通用激活函数 (Common Activation Functions)
网络架构 (Network Architecture)
训练过程
感知机 (Perceptron)
- 多层感知机 (Multilayer Perceptron)
反向传播算法

总览

神经网络是一种旨在模拟大脑执行特定任务或感兴趣的功能的方式。

神经网络是由简单的处理单元组成的大规模并行分布式处理器 (parallel distributed processor)，具有存储经验知识 (experiential knowledge) 并使其可供使用的自然倾向。

神经网络在两个方面类似于大脑:

网络通过学习过程从其环境获取知识。
神经元之间连接强度，称为突触权重，用于存储获得的知识。

神经元模型 (Models of a neuron)

神经元是神经网络操作的基本信息处理单元。
其组成包括了:

突触 (synapse) 或连接链接 (connecting links): 每个都以自身的权重 ( $\omega_{kj}$ ) 或强度为特征。连接到神经元 $k$ 的突触 $j$ 输入端的信号 $x_j$ 乘以突触权重 $\omega_{kj}$
加法器 (adder): 对输入信号 ( $x_i$ ) 求和，由神经元各自的突触强度加权。
激活函数/挤压函数 (activation function/ squashing function): 限制神经元输出的幅度 (amplitude)，将输出信号的允许幅度范围 (permissible amplitude range) 压缩到某个有限值。

在这里插入图片描述
上图表示了带有偏置 $b_k$ 的神经元模型，它增加或降低了激活函数的净输入。

上图的神经元操作可以用以下数学表示:
$u_k = \sum_{j=1}^m\omega_{kj}x_j$
$y_k=\varphi(u_k+b_k)$
其中:
$x_1, x_2, ..., x_m$ 是输入信号 (input signals)。
$\omega_1, \omega_2, ..., \omega_m$ 是神经元 $k$ 各自的突触权重。
$u_k$ 是基于输入信号的线性组合输出。
$b_k$ 是偏置。
$\varphi(.)$ 是激活函数。

偏置 $b_k$ 对线性组合器 (linear combiner) 的输出 $u_k$ 应用仿射变换 (affine transformation)。

$v_k = u_k + b_k$

上面的公式可以进一步结合:
$v_k = \sum_{j=0}^m \omega_{kj}x_j$
$y_k = \varphi(v_k)$

在结合的公式中，一个新的突触被添加了，即输入:
$x_0 = +1$
以及权重:
$\omega_{k0}=b_k$

在这里插入图片描述
上图表示了合并了偏置之后的神经元模型。

神经元的信号流模型在某些分析或可视化中可能有用。
在这里插入图片描述

通用激活函数 (Common Activation Functions)

$v_k=\sum_{j=1}^m\omega_{kj}x_j+b_k$

阈值函数 (Threshold Function)

在这里插入图片描述

如上图的阈值函数 (Threshold Function) 可以被写为:
在这里插入图片描述
神经元 $k$ 的输出，使用了阈值函数之后是:

逻辑函数 (Logistic Function)

在这里插入图片描述
如上图的逻辑函数 (例子中为 Sigmoid function) 可以被写为:
$\varphi(v) = \frac{1}{1 + exp(-av)}$

斜率参数 (slope parameter) $a$ 决定形状，如上图。

请注意，逻辑函数是可微的 (differentiable)，而阈值函数不是。

整流线性单元 (Rectified Linear Unit - ReLU)

在这里插入图片描述
上图即是ReLU激活函数，该函数的使用非常受欢迎。
其输出是一个输入的非线性函数 (non-linear function)

Softmax激活函数

在这里插入图片描述

Softmax激活函数将每个输入挤压成 0 到 1 之间的数值。

输出相当于一个分类概率分布 (categorical probability distribution)。

图类似于逻辑函数，但通常用于为分类任务中的输出提供概率解释 (probabilistic interpretation)。

在这里插入图片描述

其他激活函数

在这里插入图片描述

上图表示激活函数的导数 (derivative)。

优点

激活函数有哪些不错的特性?

非线性函数，否则神经网络只能解决简单的问题。
没有激活，神经网络相当于线性回归。
好的导数使得学习过程变得容易。
激活函数为有界输入 (bounded input) 提供有界输出 (bounded output)。
选择正确的激活函数既是科学也是艺术。
与正确的成本函数 (cost function) 一起，激活函数使训练神经网络成为可能。

网络架构 (Network Architecture)

单层前馈网络 (Single Layer Feedforward Networks)

源节点的输入层 (input layer) 直接投影到神经元的输出层 (output layer)。

在这里插入图片描述

多层前馈网络 (Multilayer Feedforward Networks)

源节点的输入层直接投射到隐藏层 (hidden layer) 的一组神经元上。

可能有一个或多个隐藏层，每一层的输出形成下一层的输入，添加一个或多个隐藏层允许网络从输入数据中提取高阶统计信息 (higher-order statistics)。

如果每层中的每个节点都连接到相邻前向层 (adjacent forward layer) 中的每个节点，则网络是完全连接的 (fully connected)。

在这里插入图片描述

循环网络 (Recurrent Networks)

与前馈网络不同，循环网络引入从输出到输入的反馈，多层反馈也可以在层之间存在。
反馈回路 (feedback loops) 和非线性激活函数允许神经网络对非线性动态系统 (nonlinear dynamic systems) 进行建模。

在这里插入图片描述
上图表示单层循环神经网络 (Single Layer Recurrent Neural Network)

在这里插入图片描述
上图表示带隐藏层的循环神经网络。

训练过程

训练类型

监督式学习 (Supervised learning): 根据给定的输入向量预测输出。
强化学习 (Reinforcement learning): 选择能最大化一些定义好的奖励 (payoff) 的行为。
非监督学习 (Unsupervised learning): 探索好的数据内部表示 (internal representation)。

监督式学习

每一个训练案例都包含了一个输入向量 $x$ 和目标输出 $t$

回归问题: 目标输出是一个实数或者一整个实数向量。
分类问题: 目标输出是一个类标签。

通常我们希望通过权重向量 $\omega$ 学习从输入向量 $x$ 到某个输出 $y$ 的映射:
$y=f(\omega, x)$
从而使预测实际值时发生的误差 (或损失/成本函数) 最小化。

对于回归问题，成本函数:
$J(\omega, b) = -\Epsilon \space log \space p_{model}(y|x)$
它是对训练数据计算的负条件对数似然 (negative conditional log-likelihood) 的期望，也就是训练数据和模型分布之间的交叉熵 (cross-entropy)。

上式的成本函数通常在优化过程梯度下降 (gradient descent) 中被最小化。

梯度下降

基于梯度的优化:

考虑一个函数 $y = f (x)$ ，其中 $x$ 和 $y$ 均是实数。
$y = f (x)$ 的导数， $f^{'}(x)$ ，在点 $x$ 上提供了 $f (x)$ 的斜率 (slope)。
重要的是，其告诉我们如何在输入缩放微小变化以获得相应的输出变量 (这是由于泰勒展开 Taylor expansion)
$f(x+\epsilon) \approx f(x) + \epsilon f^{'}(x)$
对于足够小的 $\epsilon$ , $\epsilon sign(f^{'}(x))) \lt f(x)$
因此我们可以通过用导数的相反符号 (opposite sign) 以小步移动 $x$ 来减少 $f (x)$
该技术被称为梯度下降。

在这里插入图片描述
上图是梯度下降算法的展示。

一维空间中的梯度下降

考虑在曲线 $\frac{1}{2}x^2$ (如上图) 上的一个点 $x = - 1$ ，还有步长 (step size) $\epsilon=0.1$
$\frac{1}{2};f^{'}(x)=x;f^{'}(-1)=-1$
因此:

$x^{new} = x - \epsilon f^{'}(x) = -1 - 0.1 \times (-1) = -0.9$

搜索最小值使得我们到达了 $x = - 1$ 的右边。此时看新点的值， $f (- 0.9) = 0.405$ ，其比 $f (- 1) = 0.5$ 小。

同理，若我们使得 $x = 1.5$

$x^{new} = 1.5 - 0.1 \times 1.5 = 1.35$

这使得我们移动到了 $x = 1.5$ 的左边以及朝向最小值点移动，比较 $f (1.5) = 1.125$ 以及 $f (1.35) = 0.911$

梯度下降数学

通常，函数 $f$ 的输入是向量 $x$ ，因此我们考虑 $f$ 导数的泛化， $\nabla f$
使得 $x = \{x_1, x_2, ..., x_m\}$
$\nabla f(x) = [\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_m}]^t$

偏导数 $\frac{\partial f}{\partial x_i}$ 测量 $f$ 是如何随着变量 $x_i$ 在 $x$ 点增加而变化的。

单位向量 $u$ 的方向导数 (directional derivative) 是 $f$ 在 $u$ 方向的斜率。

方向导数是 $\alpha u)$ 相对于在 $\alpha = 0$ 处评估的 $\alpha$ 的导数。

链式法则 (Chain Rule) 说给定一个函数 $f (u)$ 和 $u (x)$ ，会有
$\frac{\partial f}{\partial x} = \frac{\partial u}{\partial x} \frac{\partial f}{\partial u}$
因此，
在这里插入图片描述
目标是找到 $f$ 下降最快的方向来最小化 $f$ ，通过最小化方向导数就可以做到这一点:

当 $u$ 指向与 $\nabla f(x)$ 相反的方向，即相隔 $180 °$ 时，其达到最小值。

我们可以通过向负梯度方向移动来减少 $f$ ，选择一个新点:
$x^{'} = x - \epsilon\nabla f(x)$ 其中 $\epsilon$ 是步长。

感知机 (Perceptron)

在这里插入图片描述
考虑上图展示的感知机，权重为 $w_i$ 和输入 $x_i$ ， $i = \{1, ..., m\}$ ，额外的偏置 $b$ 。

正确地将外界的输入分类为两个类别 $C_1$ 或 $C_2$ 。

若 $y = + 1$ ，则分类为 $C_1$ 。若 $y = - 1$ ，则分类为 $C_2$ 。

在这里插入图片描述

如上图，简单的感知机创建一个能区分两个区域的超平面 (hyperplane):
$\sum_{i=1}^m w_i x_i + b = 0$

在训练样本表示的每次迭代中，感知机的权重会进行适应。方法是使用纠错规则 (error-correction rule)，感知机收敛算法 (perceptron convergence algorithm)。

在这里插入图片描述
上图左边是线性可分模式 (linearly separable patterns)，而右边是线性不可分模式 (linearly non-separable patterns)。

多层感知机 (Multilayer Perceptron)

在这里插入图片描述

多层感知机基本特征:

网络中的每一个神经元都包含了一个可差分的激活函数。
网络包含了一或多个被输入和输出节点隐藏的层。
网络表现出由网络突触权重决定的高度连通性。

多层感知机通常被使用反向传播 (back-propagation) 算法进行训练。

前向阶段 (forward phase): 网络权重是固定的，输入信号通过网络逐层传播，变换后的信号出现在输出端。
反向阶段 (backward phase): 通过比较生成的输出和期望的响应来计算误差信号 (error signal)，误差信号通过网络向后和分层传播，此时会对网络权重进行连续调整。

每一个隐藏层或输出层神经元执行下列计算:

每个神经元的输出表示为输入信号和相关权重的连续非线性函数。
训练的反向阶段所需的梯度向量 (gradient vector) (误差面的梯度 gradient of error surface) 的估计。

隐藏层神经元表现得像特征探测器 (feature detectors)，发现表征训练数据的显著特征 (salient features)。

隐藏神经元在输入数据中应用非线性变换变成一个新空间，即特征空间 (feature space)。

训练是一种纠错学习形式 (error-correction learning)，其将责任或功劳归于某个内部神经元，这是信用分配问题 (credit assignment problem) 的一个例子。

反向传播算法解决多层感知机的信用分配问题。

反向传播算法

关键点:

多层感知机是一个通用的函数逼近器 (universal function approximator)。
可以使用纠错学习进行训练以获得最佳逼近。
如果我们可以最小化近似误差 (minimize approximation error)，则可以获得最优值。
这相当于修改权重，使网络最小化期望输出和网络响应之间的误差。
梯度下降算法可用于通过迭代计算导致目标函数最小化的调整来找到目标函数的最小值。
反向传播是梯度下降的有效实现。
策略是计算要应用于每个权重 $w$ 的调整量 $\Delta w$ 。
从之前的公式可知，调整与目标函数的梯度成正比。这种情况下，是关于参数 $w$ 的 $\nabla E$ ( $E$ 是误差信号能量 error signal energy)。

每个输出神经元的误差信号 (error signal) 是:

$e_j(n) = d_j(n) - y_j(n)$
其中 $y_j$ 是当刺激 $x (n)$ 应用于输入时，神经元 $j$ 的输出。而 $d_j(n)$ 则是期待输出。

其瞬时误差能量 (instantaneous error energy) 可以被写为:
$E_j(n) = \frac{1}{2}e_j^2(n)$

总瞬时误差 (total instantaneous error) (输出层中所有神经元的总和) 为:
$\sum_{j\in C}E_j(n)=\frac{1}{2}\sum_{j \in C}e_j^2(n)$

误差计算可以是批处理模式 (batch mode) 或在线模式 (on-line mode)，这会导致批处理模式 (所有训练样本的表示) 或在线 (一次仅一个训练样本的表示) 训练。

在这里插入图片描述
上图的信号流突出显示神经元 $j$ 由左侧神经元的输出馈送，神经元的诱导局部场是 $v_j(n)$ ，其也是激活函数 $\phi(.)$ 的输入。

在迭代 $n$ 时神经元 $j$ 的诱导局部场 (induced local field) 是:
$v_j(n) = \sum_{i=0}^m w_{ji}(n)y_i(n)$
$m$ 是输入的总数。

在迭代 $n$ 时出现在神经元 $j$ 输出的函数信号 $y_j(n)$ 是:
$y_j(n) = \phi(v_j(n))$

我们需要计算应用在 $w_{ji}(n)$ 的调整(校正) $\Delta w_{ji}(n)$ 。这与偏导数 (partial derivative) $\frac{\partial E(n)}{\partial w_{ji}(n)}$ 成正比，并确定 $w_{ji}$ 在权重空间中的搜索方向。链式法则告诉我们如何从已知量中计算 $\frac{\partial E(n)}{\partial w_{ji}(n)}$
$\frac{\partial E(n)}{\partial w_{ji}(n)} = \frac{\partial E(n)}{\partial e_j(n)}\frac{\partial e_j(n)}{\partial y_{j}(n)}\frac{\partial y_j(n)}{\partial v_{j}(n)}\frac{\partial v_j(n)}{\partial w_{ji}(n)}$
从前文可知， $E_j(n) = \frac{1}{2}e_j^2(n)$ ，因此
$\frac{\partial E(n)}{\partial e_j(n)} = e_j(n)$

从前文可知， $e_j(n) = d_j(n) - y_j(n)$ ，因此
$\frac{\partial e_j(n)}{\partial y_{j}(n)} = -1$

从前文可知， $y_j(n) = \phi(v_j(n))$ ，因此

$\frac{\partial y_j(n)}{\partial v_{j}(n)} = \phi^{'}(v_j(n))$
其中 $()^{'}$ 表示微分

从前文可知， $v_j(n) = \sum_{i=0}^m w_{ji}(n)y_i(n)$ ，因此:
$\frac{\partial v_j(n)}{\partial w_{ji}(n)} = y_i(n)$

结合以上式子，我们可以得到:
$\frac{\partial E(n)}{\partial w_{ji}(n)} = -e_j(n)\phi^{'}(v_j(n))y_i(n)$

应用在 $w_{ji}(n)$ 的 $\Delta w_{ji}(n)$ 通过以下规则 (delta rule) 定义:
$\Delta w_{ji}(n) = -\eta \frac{\partial E(n)}{\partial w_{ji}(n)} = \eta (e_j(n) \phi^{'}(v_j(n))) y_i(n) \\ = \eta (\delta_j(n)) y_i(n)$

其中 $\delta_j(n) = e_j(n) \phi^{'}(v_j(n))$ 被定义为神经元 $j$ 的局部梯度 (local gradient)。

神经元 $j$ 的局部梯度是相应误差 $e_j(n)$ 和相关激活函数的导数 $\phi^{'}(v_j(n))$ 的乘积

输出神经元的误差 $e_j(n)$ 容易被计算，我们可以使用 $d_j(n)$ 以及 $y_j(n)$ 。但我们要如何计算隐藏层中的误差呢？它们并没有给定的 $d_j(n)$

整理下我们目前所得知的:

训练多层感知机涉及使用纠错学习范式中的训练数据集来调整权重。
纠错学习本质上等价于解决一个函数最小化问题。
要最小化的函数是对应于网络响应与期望响应之间不匹配的误差面。
这可以使用梯度下降算法解决。
反向传播算法是多层感知机梯度下降算法的有效实现。
每次迭代对权重的修正 (或更新) 为:
$\Delta w_{ji}(n) = \eta (e_j(n) \phi^{'}(v_j(n))) y_i(n) \\ = \eta (\delta_j(n)) y_i(n)$
这是学习率 (learning rate) $\eta$ ，相关神经元的局部梯度 $\delta_j(n)$ ，以及神经元的输入 $y_i(n)$ 的乘积。

连接到输出神经元的权重更新为:

在这里插入图片描述
使用类似于我们如何导出输出神经元权重的更新的链式法则，我们将证明隐藏神经元 (hidden neuron) 的权重更新为:

其中，神经元 $j$ 是属于隐藏层的， $\phi_j^{'}(v_j(n))$ 是相关激活函数的导数，而 $\delta_k(n)$ 与神经元 $k$ 相关联，神经元 $k$ 位于神经元 $j$ 的右侧并与之相连。 $w_{kj}(n)$ 指的是这些连接的权重，如下图所示。
在这里插入图片描述
从上面的公式中，我们试着推导出:

$\delta_j(n) = \phi_j^{'}(v_j(n))\sum_k\delta_k(n)w_{kj}(n)$

首先，回顾下之前的公式:

$\frac{\partial E(n)}{\partial w_{ji}(n)} = (\frac{\partial E(n)}{\partial e_j(n)}\frac{\partial e_j(n)}{\partial y_{j}(n)}\frac{\partial y_j(n)}{\partial v_{j}(n)})\frac{\partial v_j(n)}{\partial w_{ji}(n)}$

以及:

$\Delta w_{ji}(n) = \eta (e_j(n) \phi^{'}(v_j(n))) y_i(n) \\ = \eta (\delta_j(n)) y_i(n)$

我们从中推理出， $\delta_j(n)$ 可以被写为:

$\delta_j(n) = \frac{\partial E(n)}{\partial e_j(n)}\frac{\partial e_j(n)}{\partial y_{j}(n)}\frac{\partial y_j(n)}{\partial v_{j}(n)}$

从上图可得:
$\delta_j(n) = -\frac{\partial E(n)}{\partial y_j(n)}\frac{\partial y_j(n)}{\partial v_j(n)} \\ = -\frac{\partial E(n)}{\partial y_j(n)}\phi^{'}_j(v_j(n))$

从图像中还可知:
$\frac{1}{2} \sum_{k \in C} e_k^2(n)$
其中神经元 $k$ 是输出节点。

将上式在两边对 $y_i$ 进行微分:
$\frac{\partial E(n)}{\partial y_j(n)} = \sum_k e_k(n) \frac{\partial e_k(n)}{\partial y_j(n)}$

使用链式法则:

$\frac{\partial e_k(n)}{\partial y_j(n)} = \frac{\partial e_k(n)}{\partial v_k(n)}\frac{\partial v_k(n)}{\partial y_j(n)}$

代入:

$\frac{\partial E(n)}{\partial y_j(n)} = \sum_k e_k(n) \frac{\partial e_k(n)}{\partial v_k(n)}\frac{\partial v_k(n)}{\partial y_j(n)}$

从图中可得:
$e_k(n) = d_k(n) - y_k(n) \\=d_k(n) - \phi_k(v_k(n))$
其中神经元 $k$ 是输出节点。

还要注意，神经元 $k$ 的诱导局部场:

$v_k(n) = \sum_{j = 0}^m w_{kj}(n)y_j(n)$
其中 $m$ 是应用到神经元 $k$ 中输入数量。

结合这些分量偏导数，我们可以得到:

$\frac{\partial E(n)}{\partial y_j(n)} = - \sum_k (e_k(n) \phi_k^{'}(v_k(n)))w_{kj}(n) \\= - \sum_k (\delta_k(n))w_{kj}(n)$

接着通过进一步结合上述公式，得到:
$\delta_j(n) = \phi_j^{'}(v_j(n))\sum_k \delta_k(n) w_{kj}(n)$

结合下式:
$\Delta w_{ji}(n) = -\eta \frac{\partial E(n)}{\partial w_{ji}(n)} = \eta (e_j(n) \phi^{'}(v_j(n))) y_i(n) \\ = \eta (\delta_j(n)) y_i(n)$

我们可以得到:
$\Delta w_{ji}(n) = \eta (\phi_j^{'}(v_j(n))\sum_k \delta_k(n) w_{kj}(n)) y_i(n)$

权重更新的规则就变成了:
$w_{ji}^{new}(n) = w_{ji}^{old}(n) + \Delta w_{ji}(n) \\ = w_{ji}^{old}(n) + \eta (\phi_j^{'}(v_j(n))\sum_k \delta_k(n) w_{kj}(n)) y_i(n)$

推导完毕。

多层感知机中反向传播回顾

训练可以是在线的 (online) (在每个样本展示之后就更新权重) 或批处理的 (batch) (在所有样本展示之后进行权重更新)。
反向传播包括两个阶段，即前向传播 (forward pass) 和反向传播 (backward pass)。
前向传播: 网络权重固定，输入信号通过网络逐层传播，变换后的信号出现在输出端，每个神经元计算以下式子:
$v_j(n) = \sum_{j=0}^mw_{ji}(n)y_i(n); y_j(n) = \phi_j(v_j(n))$
反向传播: 误差通过网络向后传播以计算权重更新:

基础梯度下降的扩展

要提高学习系统的性能，我们可以:

改进模型的结构，如添加更多层。
改进模型的初始化，如建立大量的稀疏性 (sparsity)。
使用更强大的学习算法，如改进的梯度下降。

基本梯度下降算法 (属于优化器) 的几个扩展提供了更快的收敛 (faster convergence)。流行的优化器包括了:

Adam
RMSProp
AdaGrad

从之前的推导可知，梯度下降更新规则只是简单做了下面的事情:
$w_t = w_{t-1} - \eta \nabla f(w_{t-1})$
其中 $\nabla f(w_{t-1})$ 是上一次迭代的梯度。

随机梯度下降 (Stochastic Gradient Descent)

$g_t \gets \nabla f(w_{t-1})$

$w_t \gets w_{t-1} - \eta g_t$

梯度下降可能会遭受收敛缓慢问题。

动量 (Momentum)

添加动量可以提供相当大的改进

$g_t \gets \nabla f(w_{t-1})$

$m_t \gets \mu m_{t-1} + g_t$ (累积动量项)

$w_t \gets w_{t-1} - \eta m_t$

优点:

沿着梯度在训练步骤中保持相对一致的维度加速梯度下降学习。
在梯度剧烈震荡的动荡维度 (turbulent dimensions) 上减慢梯度下降学习。

Nesterov加速梯度 (Nesterov’s accelerated gradient)

Nesterov加速梯度方法在计算之前将动量项添加到参数向量 (也就是权重) 中。
根据经验，对于困难的优化目标，该方法优于基本的梯度下降和经典动量。

$g_t \gets \nabla f(w_{t-1} - \eta \mu m_{t-1})$

$m_t \gets \mu m_{t-1} + g_t$

$w_t \gets w_{t-1} - \eta m_t$

AdaGrad

基于范数 $L_2$ 的方法，其将学习率 $\eta$ 除以所有先前梯度的 $L_2$ 范数，这可以提供改进。
这会使的算法沿着已经发生显著变化的维度减慢学习速度。
沿仅略有变化的维度加速学习。
稳定模型对共同特征 (common features) 的表示。
快速学习稀有特征 (rare features) 的表示。

问题: 梯度可能变得太大并导致学习停止

$g_t \gets \nabla f(w_{t-1})$

$n_t \gets n_{t-1} + g_t^2$

$w_t \gets w_{t-1} - \eta \frac{g_t}{\sqrt{n_t+\epsilon}}$

RMSProp

为了解决之前提出的梯度增长 (growing gradient) 的问题通过对梯度项进行加权 (weighting the gradient term) 来解决，RMSProp 就被提出来了。

$g_t \gets \nabla f(w_{t-1})$

$n_t \gets v n_{t-1} + (1-v)g_t^2$

$w_t \gets w_{t-1} - \eta \frac{g_t}{\sqrt{n_t+\epsilon}}$

Adam

基于动量 (momentum-based) 和基于范数 (norm-based) 的扩展组合激发了自适应矩估计 (adaptive moment estimation - Adam)

衰减均值 (decaying mean) 代替经典动量中的衰减总和 (decaying sum)

$g_t \gets \nabla f(w_{t-1})$

$m_t \gets \mu m_{t-1} + (1 - \mu) g_t$

$\overline{m_t} \gets \frac{m_t}{1 - \mu^t}$

$n_t \gets v n_{t-1} + (1-v)g_t^2$

$\overline{n_t} \gets \frac{n_t}{1 - v^t}$

$w_t \gets w_{t-1} - \eta \frac{\overline{m_t}}{\sqrt{\overline{n_t} + \epsilon}}$

AdaMax

和 Adam 使用了 $L_2$ 不同，其使用了 $L_\infin$

$g_t \gets \nabla f(w_{t-1})$

$m_t \gets \mu m_{t-1} + (1 - \mu) g_t$

$\overline{m_t} \gets \frac{m_t}{1 - \mu^t}$

$n_t \gets max(vn_{t-1}, |g_t|)$

$w_t \gets w_{t-1} - \eta \frac{\overline{m_t}}{n_t + \epsilon}$

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git