机器学习：神经网络中的激活函数

随着深度学习的兴起，神经网络也似乎成了所有计算机视觉任务的标配，大家除了研究各种各样的网络结构之外，还有研究优化方法的，以及激活函数的，这篇博客就对当前各种各样的激活函数做一个总结，分析其背后的性质。到目前为止，激活函数的形式有很多种了，早期的激活函数主要是 sigmoid 以及 tanh 函数，这两种函数都能将输入限制在很小的范围内，算是一种非线性函数，后来又出现了 RELU 以及各种基于 RE

Matrix_11

4926人浏览 · 2020-10-19 22:11:55

Matrix_11 · 2020-10-19 22:11:55 发布

随着深度学习的兴起，神经网络也似乎成了所有计算机视觉任务的标配，大家除了研究各种各样的网络结构之外，还有研究优化方法的，以及激活函数的，这篇博客就对当前各种各样的激活函数做一个总结，分析其背后的性质。

到目前为止，激活函数的形式有很多种了，早期的激活函数主要是 sigmoid 以及 tanh 函数，这两种函数都能将输入限制在很小的范围内，算是一种非线性函数，后来又出现了 RELU 以及各种基于 RELU 的变体。

Tanh 函数

tanh 是一种双曲函数，称为双曲正切，其表达式如下：

$\frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$

从上式可以看出，tanh 函数的取值范围是 [-1, 1]，其导数为：

$\begin{aligned} tanh'(x) &= ((e^{x} - e^{-x})(e^{x} + e^{-x})^{-1})' \\ &= (e^{x} + e^{-x})(e^{x} + e^{-x})^{-1} - (e^{x} - e^{-x})(e^{x} + e^{-x})^{-2}(e^{x} - e^{-x}) \\ &= 1 - \left( \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} \right)^2 \\ &= 1 - tanh^2(x) \end{aligned}$

其函数曲线及导数曲线如下所示：

tanh 函数曲线

Sigmoid 函数

sigmoid 函数也是非常常见的一种函数，其表达式如下：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

sigmoid 函数的取值范围是 [0, 1]，其导数为：

$\begin{aligned} \sigma'(x) &= \frac{1}{(1+e^{-x})^2} e^{-x} \\ &= \frac{1 + e^{-x} - 1}{(1+e^{-x})^2} \\ &= \sigma(x) - \sigma^2{x} \\ &= \sigma(x)(1 - \sigma(x)) \end{aligned}$

其函数曲线及导数曲线如下：

sigmoid 函数曲线

RELU 函数

relu 函数在如今的深度神经网络里面，应该是非常主流的一种函数了，上面介绍的两种激活函数，我们可以看到其导数的取值范围很小，在深度神经网络里，这种导数在链式传导的时候，有可能出现梯度消失的问题，所以为了解决这个问题，relu 这种函数获得了推广和关注，relu 函数的形式非常简单：

$\max(0, x)$

$\begin{cases} x & \text{ if } x > 0 \\ 0 & \text{ if } x < 0 \end{cases}$

可以看出，就是把小于 0 的输出都给截断了，而大于 0 的输出都保留，其导数也很简单，不过 relu 函数的导数不连续，在 0 这个地方出现断裂：

$\begin{cases} 1 & \text{ if } x > 0 \\ 0 & \text{ if } x < 0 \end{cases}$

relu 函数曲线

在这里插入图片描述

RELU6 函数

Relu6 属于 Relu 函数的一种变体，将大于 0 的输出在某个地方做了一个截断，从函数名上可以看出，这个截断就是在 6 这个地方，其函数表达式为：

$\begin{cases} 0 & \text{ if } x < 0 \\ 6 & \text{ if } x > 6 \\ x & \text{otherwise} \end{cases}$

从函数表达式可以看出，只有在 [0, 6] 之间的输入保持了线性关系，小于 0 和大于 6 的输入都直接截断了，其导数形式为：

$\begin{cases} 0 & \text{ if } x < 0 \\ 0 & \text{ if } x > 6 \\ 1 & \text{otherwise} \end{cases}$

ELU 函数

ELU 函数属于 RELU 函数的变体，因为原始的 RELU 函数对小于 0 的输入都直接截断了，所以为了克服这个问题，提出了很多的变体，ELU 是其中的一种，其函数表达式如下：

$\begin{cases} x & \text{ if } x > 0 \\ \alpha * (e^{x} - 1) & \text{ if } x < 0 \end{cases}$

ELU 对小于 0 的输入没有直接截断，而是用一个指数函数来表示，一定程度保留了小于 0 的部分，相应地，其导数也分成两部分：

$\begin{cases} 1 & \text{ if } x > 0 \\ \alpha * e^{x} & \text{ if } x < 0 \end{cases}$

elu 函数曲线

SELU 函数

SELU 函数的表达式如下：

$\lambda \begin{cases} x & \text{ if } x > 0 \\ \alpha * e^{x} - \alpha & \text{ if } x < 0 \end{cases}$

上面的 $α=1.6732632423543772848170429916717\alpha = 1.6732632423543772848170429916717$ ，
$λ=1.0507009873554804934193349852946\lambda = 1.0507009873554804934193349852946$ ，

Selu 的导数为：

$\lambda \begin{cases} 1 & \text{ if } x > 0 \\ \alpha * e^{x} & \text{ if } x \leq 0 \end{cases}$

LeakyReLU 函数

LeakyReLU 函数也是 RELU 函数的变体，类似 ELU，其小于 0 的部分并没有截断，不过不同于 ELU 的是，LeakyReLU 没有用指数函数，而是简单的一个线性函数来表示：

$\begin{cases} x & \text{ if } x > 0 \\ \alpha * x & \text{ if } x < 0 \end{cases}$

其导数形式也很简单：

$\begin{cases} 1 & \text{ if } x > 0 \\ \alpha & \text{ if } x < 0 \end{cases}$

HardShrink 函数

HardShrink 类似一个对称函数，在大于一定阈值与小于一定阈值的输入保持不变，而在某个范围之间的为 0，其函数表达式如下：

$\begin{cases} x & \text{ if } x > \lambda \\ -x & \text{ if } x < -\lambda \\ 0 & \text{otherwise} \end{cases}$

$λ\lambda$ 一般取 0.5，其导数形式也很直接：

$\begin{cases} 1 & \text{ if } x > \lambda \\ -1 & \text{ if } x < -\lambda \\ 0 & \text{otherwise} \end{cases}$

HardSigmoid 函数

HardSigmoid 函数类似 sigmoid 函数，取值范围也是 [0, 1] 之间，不过不是利用指数函数做非线性变换，而是一个线性函数来实现的，其函数形式如下所示：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ 1 & \text{ if } x \geq 3 \\ x/6 + 1/2 & \text{otherwise} \end{cases}$

其导数形式也比较简单：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ 0 & \text{ if } x \geq 3 \\ 1/6 & \text{otherwise} \end{cases}$

Hardtanh

应该是基于 tanh 函数变化而来，tanh 的取值范围是 [-1, 1]，hardtanh 的取值范围也是 [-1, 1]，只不过在这个区间是一个线性函数的映射：

$\begin{cases} -1 & \text{ if } x \leq -1 \\ 1 & \text{ if } x \geq 1 \\ x & \text{otherwise} \end{cases}$

其导数形式为：

$\begin{cases} 0 & \text{ if } x \leq -1 \\ 0 & \text{ if } x \geq 1 \\ 1 & \text{otherwise} \end{cases}$

Hardswish

这个函数的形式如下：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ x & \text{ if } x \geq 3 \\ x \cdot (x+3)/6 & \text{otherwise} \end{cases}$

其导数形式如下：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ 1 & \text{ if } x \geq 3 \\ x/6 + 1/2 & \text{otherwise} \end{cases}$

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git