神经网络基础——Sigmoid函数参数推导原理

由于人工智能方向涉及较多数学知识，限于篇幅原因，作者无法将其列举完全，这里挑选几个较为重要的知识点作简要介绍。有些基础数学知识已经单独在其他文档中描述，这里不再赘述。如有疑问，欢迎评论或私信留言。

HXhlx0

1000人浏览 · 2026-01-26 16:30:35

HXhlx0 · 2026-01-26 16:30:35 发布

前置知识

极大似然法

总体 $X$ 有分布率 $P(X=x;\theta)$ 或密度函数 $f(x;\theta)$ ，已知 $\theta\in\Theta$ ， $\Theta$ 是参数空间。 $x_i)_{i=1}^n$ 为取自总体 $X$ 的一个样本 $X_i)_{i=1}^n$ 的观测值，将样本的联合分布率或联合密度函数看成是 $\theta$ 的函数，用 $L(\theta)$ 表示，又称为 $\theta$ 的似然函数，即
$\begin{aligned} L(\theta)&=\prod_{i=1}^nP(X_i=x_i;\theta)或\\ L(\theta)&=\prod_{i=1}^nf(x_i;\theta) \end{aligned}$
称满足关系式
$L(\hat\theta)=\max_{\theta\in\Theta}L(\theta)$
的解
$\hat\theta=\arg\max_{\theta\in\Theta}L(\theta)$
为 $\theta$ 的极大似然估计量。
当 $L(\theta)$ 是可微函数时，求导是求极大似然估计最常用的方法。此时又因 $L(\theta)$ 与 $\ln L(\theta)$ 在同一个 $\theta$ 处取得极值，且对对数似然函数 $\ln L(\theta)$ 求导更简单，故我们常用如下对数似然方程
$\frac{d\ln L(\theta)}{d\theta}=0$
当 $\theta$ 为几个未知参数组成的向量 $\mathbf\theta=(\theta_i)_{i=1}^k$ 时，用如下对数似然方程组
$\begin{cases} \frac{\partial\ln L(\theta)}{\partial\theta_1}=0 \\ \frac{\partial\ln L(\theta)}{\partial\theta_2}=0 \\ \vdots \\ \frac{\partial\ln L(\theta)}{\partial\theta_k}=0 \end{cases}$
求得 $\theta$ 的极大似然估计值。
当似然函数不可微时，也可以直接寻求使得 $L(\theta)$ 达到最大的解来求的极大似然估计值。

泰勒公式

如果给定了在点 $x_0$ 具有所有前 $n$ 阶导数的函数 $f (x)$ ，则称 $f (x)$ 在 $x_0$ 处 $n$ 阶可导。则有
$\begin{aligned} f(x)&=f(x_0)+f'(x_0)(x-x_0)+\frac12f''(x_0)(x-x_0)^2+\frac1{3!}f'''(x_0)(x-x_0)^3+\cdots+\frac1{n!}f^{(n)}(x_0)(x-x_0)^n+R_n(x)\\ &=\sum_{i=0}^n\frac{f^{(i)}(x_0)}{i!}(x-x_0)^i+R_n(x) \end{aligned}$
其中 $R_n(x)$ 称为泰勒公式的余项，当 $n$ 充分大时， $R_n(x)$ 趋于0。
对泰勒公式求n阶导，其在 $x_0$ 处的值为 $f^{(n)}(x_0)$ 。

Logistic分布

设 $X$ 是连续随机变量， $X$ 服从Logistic分布是指 $X$ 具有下列分布函数和密度函数：
$\begin{aligned} F(x)&=P(X\le x)=\frac1{1+e^{-\frac{x-\mu}\gamma}}\\ f(x)&=F'(x)=\frac{e^{-\frac{x-\mu}\gamma}}{\gamma(1+e^{-\frac{x-\mu}\gamma})^2} \end{aligned}$
式中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数。Logistic函数是一条以点 $(\mu,\frac12)$ 为中心对称的S型曲线
Logistic分布函数
Logistic密度函数

Sigmoid函数

Sigmoid函数是激励函数的一种，在神经网络中具有重要作用。其中的重要代表就是Logistic函数，为当位置参数 $\mu=0$ ，形状参数 $\gamma=1$ 时的Logistic分布函数，表达式为
$y=\frac{1}{1+e^{-z}}$
每一次进入神经网络节点的过程，都是先进行线性变换，再使用激励函数运算的过程。因此可有下式
$\begin{cases} z=\mathbf{w^T x}+b \\ y=\frac{1}{1+e^{-z}} \end{cases}$
联合得到
$y=\frac1{1+e^{-(\mathbf{w^T x}+b)}}$
上式可变化为
$\ln\frac{y}{1-y}=\mathbf{w^T x}+b$

Logistic回归

若将 $y$ 视为样本 $\mathbf x$ 作为正例的可能性 $P(y=1|\mathbf x)$ ，则 $1 - y$ 是其反例可能性 $P(y=0|\mathbf x)$ ，则有
$\begin{aligned} P(y=1|\mathbf x)&=\frac1{1+e^{-(\mathbf{w^T x}+b)}}=\frac{e^{\mathbf{w^T x}+b}}{1+e^{\mathbf{w^T x}+b}}\\ P(y=0|\mathbf x)&=\frac1{1+e^{\mathbf{w^T x}+b}}\\ \ln\frac{P(y=1|\mathbf x)}{P(y=0|\mathbf x)}&=\mathbf{w^T x}+b \end{aligned}$

参数估计

给定数据集 ${(\mathbf x_i,y_i)}_{i=1}^m$ ，Logistic回归模型最大化对数似然
$\begin{aligned} LL(\mathbf w,b)&=\ln\prod_{i=1}^mP(y_i|\mathbf x_i;\mathbf w,b)\\ &=\sum_{i=1}^m\ln P(y_i|\mathbf x_i;\mathbf w,b) \end{aligned}$
令 $\mathbf{\hat w}=\begin{bmatrix} \mathbf w \\ b \end{bmatrix},\hat{\mathbf x}=\begin{bmatrix}\mathbf x & 1\end{bmatrix}$ ，则 $\mathbf{w^T x}+b$ 可简写为 $\mathbf{\hat w^T\hat x}$ 。根据事件的独立性，
$\begin{aligned} P(y_i|\mathbf x_i;\mathbf w,b)&=P(y=1|\hat{\mathbf x_i};\mathbf{\hat w})^{y_i}P(y=0|\hat{\mathbf x_i};\mathbf{\hat w})^{1-y_i}\\ &=\left(\frac1{1+e^{-\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{y_i}\left(\frac1{1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{1-y_i} \end{aligned}$
经写者多方排查，上式在不同的书中结果是不一致的，主要代表为周志华的《机器学习》和李航的《统计学习方法》。周志华的《机器学习》可能是采用了全概率公式，推导过程有误，这里以李航《统计学习方法》的为准。
代入对数似然得
$\begin{aligned} LL(\mathbf{\hat w})&=\sum_{i=1}^m\ln\left(\frac1{1+e^{-\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{y_i}\left(\frac1{1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}}}\right)^{1-y_i}\\ &=\sum_{i=1}^m[\mathbf{\hat w^T\hat x_i}y_i-\ln(1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}})] \end{aligned}$
对 $LL(\mathbf{\hat w})$ 求在极大值时的 $\mathbf{\hat w}$ 等价于求 $-LL(\mathbf{\hat w})$ 在极小值时的 $\mathbf{\hat w}$ ，即
$\begin{aligned} \mathbf{\hat w}&=\arg\max_{\mathbf{\hat w}}LL(\mathbf{\hat w}) =\arg\max_{\mathbf{\hat w}}\sum_{i=1}^m[\mathbf{\hat w^T\hat x_i}y_i-\ln(1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}})]\\ &=\arg\min_{\mathbf{\hat w}}(-LL(\mathbf{\hat w})) =\arg\min_{\mathbf{\hat w}}\sum_{i=1}^m[\ln(1+e^{\mathbf{\mathbf{\hat w}^T\hat x_i}})-\mathbf{\hat w^T\hat x_i}y_i] \end{aligned}$

梯度下降法

梯度下降法又称最速下降法，是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点，梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

针对Sigmoid函数，要求解的无约束最优化问题是
$\min(f(\mathbf{\hat w}))=\min(-LL(\mathbf{\hat w}))$
$\mathbf{\hat w}^*$ 表示目标函数 $f(\mathbf{\hat w})$ 的极小点。
梯度下降法是一种迭代算法。选取适当的初值 $\mathbf{\hat w}_0$ ，不断迭代，更新 $\mathbf{\hat w}$ 的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $\mathbf{\hat w}$ 的值，从而达到减少函数值的目的。

由于 $f(\mathbf{\hat w})$ 具有一阶连续偏导数，若第 $k$ 次迭代值为 $\mathbf{\hat w}_k$ ，可求得 $f(\mathbf{\hat w})$ 在 $\mathbf{\hat w}_k$ 的梯度为：
$G(\mathbf{\hat w}_k)=\nabla f(\mathbf{\hat w}_k))=\frac{\partial f(\mathbf{\hat w}_k)}{\partial\mathbf{\hat w}_k}=\sum_{i=1}^m\left(\frac{1}{1+e^{-\mathbf{\mathbf{\hat w}_k^T\hat x_i}}}-y_i\right)\mathbf{\hat x_i}$
给定一个精度 $\epsilon$ ，一般取较小值，当 $||G(\mathbf{\hat w}_k)||<\epsilon$ 时，停止迭代。此时找到了符合精度要求的极小值解 $\mathbf{\hat w}^*=\mathbf{\hat w}_k$ ；否则，令新的点 $\mathbf{\hat w}_{k+1}=\mathbf{\hat w}_k-\epsilon G(\mathbf{\hat w}_k)$ ，继续迭代。

牛顿法

牛顿法基于一个二阶泰勒展开来近似 $\mathbf{\hat w}_0$ 附近的 $f(\mathbf{\hat w})$ ：
$\begin{aligned} f(\mathbf{\hat w})&\approx f(\mathbf{\hat w}_0)+(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\nabla f(\mathbf{\hat w}_0)+\frac12(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\nabla^2f(\mathbf{\hat w}_0)(\mathbf{\hat w}-\mathbf{\hat w}_0)\\ &\approx f(\mathbf{\hat w}_0)+(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\sum_{i=1}^m\left(\frac{1}{1+e^{-\mathbf{\mathbf{\hat w}_k^T\hat x_i}}}-y_i\right)\mathbf{\hat x_i}+\frac12(\mathbf{\hat w}-\mathbf{\hat w}_0)^T\left[\sum_{i=1}^m\frac{e^{\mathbf{\mathbf{\hat w}_k^T\hat x_i}}}{(1+e^{\mathbf{\mathbf{\hat w}_k^T\hat x_i}})^2}\mathbf{\hat x}_i\mathbf{\hat x}_i^T\right](\mathbf{\hat w}-\mathbf{\hat w}_0) \end{aligned}$
其中 $H(f(\mathbf{\hat w}_0))=\nabla^2 f(\mathbf{x_0})$ 是Hessian矩阵，详见神经网络基础——矩阵求导运算

给定精度 $\epsilon$ ，假设 $\mathbf{\hat w}_{k+1}$ 满足精度条件
$0\approx G(\mathbf{\hat w}_{k+1})=\nabla f(\mathbf{\hat w}_{k+1})<\epsilon$
则有
$G(\mathbf{\hat w}_k)\approx((\mathbf{\hat w}_{k+1}-\mathbf{\hat w}_k)^T)^{-1}(f(\mathbf{\hat w}_{k+1})-f(\mathbf{\hat w}_k))\approx\nabla f(\mathbf{\hat w}_k)+\frac12\nabla^2f(\mathbf{\hat w}_k)(\mathbf{\hat w}_{k+1}-\mathbf{\hat w}_k)\approx0$
由上式可得迭代公式
$\mathbf{\hat w}_{k+1}=\mathbf{\hat w}_k-2H(f(\mathbf{\hat w}_0))^{-1}G(\mathbf{\hat w}_k)$

拟牛顿法

牛顿法由于每次迭代都需要计算一次黑塞矩阵的逆矩阵，这一过程比较复杂。拟牛顿法的思想是构造一个近似矩阵 $N$ 来替代黑塞矩阵的逆 $H^{-1}$ 。常用的算法有DFP算法(Davidon-Fletcher-Powell, DFP algorithm)、BFGS(Broyden-Fletcher-Goldfarb-Shanno, BFGS algorithm)、Broyden类算法(Broyden’s algorithm)等。由于篇幅原因，这里不再赘述。后续另开篇幅单独介绍。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git