深度学习基础（八）—— 稀疏自编码器

自编码器神经网络尝试学习一个：hW,b(x)≈xh_{W,b}(x)\approx x的函数，换句话说，它尝试逼近一个恒等函数（identity function，或叫证同函数），使得输出 x^\hat x 接近于输入 xx。恒等函数虽然看上去不太有学习的意义，但是当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。隐藏神经元数量较小

五道口纳什

2074人浏览 · 2016-04-29 11:10:44

五道口纳什 · 2016-04-29 11:10:44 发布

自编码器神经网络尝试学习一个：

h W, b (x) \approx x

x^<script type="math/tex" id="MathJax-Element-2">\hat x</script> 接近于输入

x<script type="math/tex" id="MathJax-Element-3">x</script>。

恒等函数虽然看上去不太有学习的意义，但是当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。

隐藏神经元数量较小 ⇒ 类似于 PCA，实现降维；
即使隐藏神经元的数量较大（可能比输入像素的个数还要多），我们仍然通过给自编码神经网络施加一些其他的限制条件来发现输入数据中的结构。具体来说，如果我们给隐藏神经元加入稀疏性限制，那么自编码神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中一些有趣的结构。

稀疏性可以被简单地解释如下。如果当神经元的输出接近于 1 的时候我们认为它被激活，而输出接近于 0 的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。这里我们假设的神经元的激活函数是 sigmoid 函数（其值域在 (0,1)）。如果你使用 tanh（值域 (-1, 1)）作为激活函数的话，当神经元输出为-1的时候，我们认为神经元是被抑制的。

a(2)j<script type="math/tex" id="MathJax-Element-4">a_j^{(2)}</script>表示隐层神经元 j<script type="math/tex" id="MathJax-Element-5">j</script> 的激活度，使用 a(2)j(x)<script type="math/tex" id="MathJax-Element-6">a_j^{(2)}(x)</script> 表示在给定输入为 x<script type="math/tex" id="MathJax-Element-7">x</script> 的情况下，自编码神经网络隐藏神经元 j<script type="math/tex" id="MathJax-Element-8">j</script> 的激活度。

ρ^j = 1 m \sum i = 1 m a (2) j (x i)

ρ^j<script type="math/tex" id="MathJax-Element-10">\hat \rho_j</script> 表示隐层神经元的平均活跃度（在全部数据集上的平均）。我们可以近似地加入一些限制：

ρ^j = ρ

ρ<script type="math/tex" id="MathJax-Element-12">\rho</script> 是稀疏性参数，通常是一个接近于 0 的较小的值（

ρ=0.05<script type="math/tex" id="MathJax-Element-13">\rho=0.05</script>），也即我们要限制隐层神经元

j<script type="math/tex" id="MathJax-Element-14">j</script> 的平均活跃度接近 0.05。为了实现这一限制，我们将会在我们的优化目标函数中加入一些额外的惩罚因子，而这一惩罚因子将惩罚那些

ρ^j<script type="math/tex" id="MathJax-Element-15">\hat \rho_j</script> 和

ρ<script type="math/tex" id="MathJax-Element-16">\rho</script> 有显著不同的情况，从而使隐层神经元的平均活跃度保持在较小范围内。惩罚因子的具体形式有很多种合理的选择，我们将会选择以下这种：

\sum j = 1 s 2 ρ log ρ ρ ^ j + (1 - ρ) log 1 - ρ 1 - ρ ^ j

这里，s2<script type="math/tex" id="MathJax-Element-18">s_2</script> 是隐藏层中隐藏神经元的数量，而遍历 j<script type="math/tex" id="MathJax-Element-19">j</script> 可得隐层中每一个神经元。这一惩罚因子其实是基于 KL-divergence 的，于是惩罚因子也可被表示为：

\sum i = 1 s 2 KL (ρ | | ρ^j)

其中 KL(ρ||ρ^j)=ρlogρρ^j+(1−ρ)log1−ρ1−ρ^j<script type="math/tex" id="MathJax-Element-21">\text{KL}(\rho||\hat \rho_j)=\rho\log\frac{\rho}{\hat \rho_j}+(1-\rho)\log\frac{1-\rho}{1-\hat\rho_j}</script> 相对熵是一种标准的用来测量两个分布之间差异的方法。

这一惩罚因子有如下性质，当 ρ^j=ρ<script type="math/tex" id="MathJax-Element-22">\hat\rho_j=\rho</script> 时，KL(ρ||ρ^j)=0<script type="math/tex" id="MathJax-Element-23">KL(\rho||\hat\rho_j)=0</script>，并且随着 ρ^j<script type="math/tex" id="MathJax-Element-24">\hat\rho_j</script> 与 ρ<script type="math/tex" id="MathJax-Element-25">\rho</script> 之间的差异增大而单调增加。举例来说，在下图中，我们设定 ρ=0.2<script type="math/tex" id="MathJax-Element-26">\rho=0.2</script>，并且画出了相对熵 KL(ρ||ρ^j)<script type="math/tex" id="MathJax-Element-27">KL(\rho||\hat\rho_j)</script> 随着 ρ^j<script type="math/tex" id="MathJax-Element-28">\hat\rho_j</script> 随着 ρ^j<script type="math/tex" id="MathJax-Element-29">\hat\rho_j</script> 的变化情况：

import numpy as np
import matplotlib.pyplot as plt

def kl(p, q):
    return p*np.log(p/q) + (1-p)*np.log((1-p)/(1-q))
p = .2
q = np.arange(0, 1, 0.01)[1:]
plt.plot(q, kl(p, q))
plt.show()

我们可以看出，相对熵在 ρ^j=ρ<script type="math/tex" id="MathJax-Element-418">\hat\rho_j = \rho</script> 时达到最小值 0，而当 ρ^j<script type="math/tex" id="MathJax-Element-419">\hat\rho_j</script> 靠近 0 或者 1（也即远离 ρ<script type="math/tex" id="MathJax-Element-420">\rho</script>）时，相对熵则会变得非常大。所以最小化这一惩罚因子具有使得 ρ^j<script type="math/tex" id="MathJax-Element-421">\hat\rho_j</script> 靠近 ρ<script type="math/tex" id="MathJax-Element-422">\rho</script> 的效果，现在我们的总体代价函数为：

J sparse (W, b) = J (W, b) + β \sum i = 1 s 2 KL (ρ | | ρ^j)

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git