深度学习的相关技术
深度学习的相关技术一、归一化(Normalization)功能:减缓乃至解决内部协变量偏移(internal covariate shift),加快梯度下降的求解速度,使得可以使用更大的学习率更稳定地进行梯度传播,甚至增加网络的泛化能力线性归一化yi=(xi−xmin)/(xmax−xmin)y_i=(x_i-x_{min})/(x_{max}-x_{min})yi=(xi−xmin)/(x
深度学习的相关技术
一、归一化(Normalization)
功能:减缓乃至解决内部协变量偏移(internal covariate shift),加快梯度下降的求解速度,使得可以使用更大的学习率更稳定地进行梯度传播,甚至增加网络的泛化能力
线性归一化
y i = ( x i − x m i n ) / ( x m a x − x m i n ) y_i=(x_i-x_{min})/(x_{max}-x_{min}) yi=(xi−xmin)/(xmax−xmin)
零均值归一化
y i = x i − μ σ y_i = \frac{x_i-\mu}{\sigma} yi=σxi−μ
Box-Cox变换
特点:可以将非正态分布转换为正态分布
直方图归一化(Histogram Normalization)
线性归一的强化版
y i = { 0 , x i < c x i − c d − c , c ≤ x i ≤ d 1 , x i > d y_i = \begin{cases} 0&,x_i<c\\ \frac{x_i-c}{d-c}&, c\leq x_i\leq d\\ 1&,x_i>d\\ \end{cases} yi=⎩⎪⎨⎪⎧0d−cxi−c1,xi<c,c≤xi≤d,xi>d
批归一化(Batch Normalization)
公式:
μ B = 1 n ∑ i = 1 n x i σ B 2 = 1 n ∑ i = 1 n ( x i − μ B ) 2 x i ′ = x i − μ B σ B 2 + ε y i = γ i x i ′ + β i \mu_B =\frac{1}{n}\sum^n_{i=1}x_i\\ \sigma^2_B =\frac{1}{n}\sum^n_{i=1}(x_i-\mu_B)^2\\ x_i'=\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\varepsilon}}\\ y_i=\gamma_ix_i'+\beta_i\\ μB=n1i=1∑nxiσB2=n1i=1∑n(xi−μB)2xi′=σB2+εxi−μByi=γixi′+βi
使用注意事项:
- batch_size不能太小(不低于32)
- 前一层的bias可以不要
相关论文:
1、用批归一化加速深网训练
2、Understanding batch normalization[C]//Advances in Neural Information Processing Systems
3、批归一化怎样影响最优化
批归一化
更多推荐
所有评论(0)