神经网络和深度学习——第一周学习总结

m0_63484150

648人浏览 · 2025-06-25 22:17:08

m0_63484150 · 2025-06-25 22:17:08 发布

一、线性回归

1、定义：利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

2、线性回归要素：

·训练集 $x$

·输出数据 $y$

·拟合的函数（或者称为假设或者模型）

·训练数据的条目数：一条训练数据是由一对输入数据和输出数据组成的，输入数据的维度 $n$ （特征的个数）

3、学习过程：

假设给定样本（ $x^{(i)}$ , $y^{(i)}$ ),

构造代价函数（误差、损失函数）： $J(\mathbf{\theta})=\frac{1}{2}\Sigma_{i=1}^{N}\left(y^{(i)}-h_{\mathbf{\theta}}\left(\mathbf{x}^{(i)}\right)\right)^{2}$

目标：找到超平面参数 $\theta$ ，使 $J(\theta)$ 最小，即求解 $\operatorname*{min}_{\mathbf{\theta}}J(\mathbf{\theta})$

求解：令 $\frac{\partial J(\mathbf{\theta})}{\partial\mathbf{\theta}}=0$ ，即 $\mathbf{\theta}=(\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}$

二、线性二分类

1、定义：样本通过直线(或超平面)可分。

性分类器输入：特征向量

输出：哪一类。如果是二分类问题，则为0和1，或者是属于某类的概率，即0-1之间的数。

2、线性分类与线性回归差别：

输出意义不同：属于某类的概率<->回归具体值

参数意义不同：最佳分类直线<->最佳拟合直线

维度不同：前面的例子中，一个是一维的回归，一个是二维的分类

3、构造二分类的“分界直线”：

一边是负值，一边是正值。越属于这类，值越大(正)，反之越小(负)。

三、梯度下降法

$J(\mathbf{\theta}_{k+1})=J(\mathbf{\theta}_k)+\left[\frac{dJ}{d\mathbf{\theta}}\right]^\mathsf{T}\Delta\mathbf{\theta}_k$

令 $\Delta\theta_{k}=-\alpha\frac{dJ}{d\theta}=-\alpha\nabla_{\theta}J$

则必然有： $J(\mathbf{\theta}_{k+1})\leq J(\mathbf{\theta}_k)$

四、多分类回归

代价函数写为： $l(\mathbf{y},\hat{\mathbf{y}})=-\sum_{j=1}^Ky_j\log\hat{y}_j$

称为交叉熵损失。

五、神经元模型

六、感知机原理

感知机(Perceptron)是1957年，由Rosenblatt提出，是神经网络和支持向量机的基础。感知机解决线性分类问题。

具体步骤：

输入：训练数据集 $\{\mathbf{x}^{(i)},y^{(i)}\}$ （监督学习）

输出： $\mathbf{w}$

1、赋初值 $\mathbf{w_0}$ ，数据序号 $i=1$ ，迭代次数 $k=0$ 。

3`、判断该数据点是否为当前模型的误分点，即判断：若 $y^{(i)}(\mathbf{w}^{\mathsf{T}}\mathbf{x}^{(i)})\leq0$ ，则更新权值： $\mathbf{w}_{k+1}=\mathbf{w}_{k}+\eta y^{(i)}\mathbf{x}^{(i)}$

4、转到2，直到训练集中没有误分点。

七、多层感知机

XOR问题：线性不可分问题（无法进行线性分类）

解决方法：使用多层感知机

在输入和输出层间加一或多层隐单元，构成多层感知器（多层前馈神经网络）。

• 加一层隐节点（单元）为三层网络，可解决异或（XOR）问题。由输入得到两个隐节点、一个输出层节点的输出：

$\begin{gathered} y_{1}^{[1]}=f\left(w_{11}^{[1]}x_{1}+w_{12}^{[1]}x_{2}-\theta_{1}^{[1]}\right) \\ y_{2}^{[1]}=f\left(w_{21}^{[1]}x_{1}+w_{22}^{[1]}x_{2}-\theta_{2}^{[1]}\right) \\ y=f\left(w_{1}^{[2]}y_{1}^{[1]}+w_{2}^{[2]}y_{2}^{[1]}-\theta\right) \end{gathered}$

可得到：

八、多层前馈网络和BP算法

多层感知机是一种多层前馈网络，由多层神经网络构成，每层网络将输出传递给下一层网络。神经元间的权值连接仅出现在相邻层之间，不出现在其他位置。如果每一个神经元都连接到上一层的所有神经元（除输入层外），则成为全连接网络。

多层前馈网络的反向传播（BP）学习算法，简称BP算法，是有导师的学习，它是梯度下降法在多层前馈网中的应用。

算法简述：

总结：

优点：

·学习完全自主；

·可逼近任意非线性函数；

缺点：

·算法非全局收敛；

·收敛速度慢；

·学习速率的选择；

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git