【深度学习】网络初始化 (initialization)

JNingWei

5207人浏览 · 2017-12-18 17:42:03

JNingWei · 2017-12-18 17:42:03 发布

Introduction

好的开始是成功的一半。
为了让你的模型跑赢在起跑线 ε=ε=ε=(_￣▽￣) ，请慎重对待参数初始化。

	公式	效果
全0	0	导致梯度更新在同层之内完全一样
随机	$0.001 \cdot randn(in, out)$	导致 in、out 方差不一致，收敛较慢
Xavier	$\frac{0.001 \cdot randn(in, out)}{\sqrt{in}}$	做了方差规范化，维持了一致性。但未考虑到 relu 对 in 的影响
He	$\frac{0.001 \cdot randn(in, out)}{\sqrt{\frac{in}{2}}}$	考虑了 relu 的影响，对 relu网络更友好
导入预训练		最佳

Note：

randn(in, out) ：shape = [in, out] 的 随机高斯矩阵 。

tf 中常用的初始化器

tf的初始化器包括：tf.initializers.he_normal()、tf.initializers.truncated_normal()、tf.contrib.layers.xavier_initializer() 这三种。
建议采用默认配置。一般不会在这边想trick，真没啥明显增益。

API

TensorFlow中自带关于参数初始化的API，具体使用见 tensorflow: variable初始化。

全零初始化 (Zero Initialization)

将网络中 所有参数 初始化为 0 。

如果所有的参数都是0，那么所有神经元的输出都将是相同的，那在back propagation的时候，gradient相同，weight update也相同。同一层内所有神经元的行为也是相同的。

这显然不可接受。

随机初始化 (Random Initialization)

将参数值（通过高斯分布或均匀分布）随机初始化为 接近0的一个很小的随机数（有正有负），从而使对称失效。

W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001

Note：

node_in、 node_out表示 输入神经元个数、输出神经元个数；
其中，np.random.randn(node_in, node_out)输出服从标准正态分布的node_in × node_out矩阵；
控制因子：0.001，保证参数期望接近0；
一旦随机分布选择不当，就会导致网络优化陷入困境。

这里写图片描述

Xavier初始化 (Xavier Initialization)

W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in) ) * 0.001

这里写图片描述

Note：

加上了 方差规范化： / np.sqrt(node_in)，维持了 输入、输出数据分布方差的一致性，从而更快地收敛。

He初始化 (He Initialization)

W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in/2) ) * 0.001

这里写图片描述

Note：

考虑到 非线性映射 (relu) 函数 的影响，将 方差规范化 的分母修改为 np.sqrt(node_in/2)，能让Relu网络更快地收敛。

迁移学习初始化 (Pre-train Initialization)

将 预训练模型的参数 作为新任务上的初始化参数。

数据敏感初始化

根据自身任务数据集而特别定制的参数初始化方法。

[1] 聊一聊深度学习的weight initialization
[2] 深度学习之参数初始化策略

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git