一、线性回归

1、定义:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

2、线性回归要素:

·训练集x

·输出数据y

·拟合的函数(或者称为假设或者模型)

·训练数据的条目数:一条训练数据是由一对输入数据和输出数据组成的,输入数据的维度n(特征的个数)

3、学习过程:

假设给定样本x^{(i)},y^{(i)}),

构造代价函数(误差、损失函数):$J(\mathbf{\theta})=\frac{1}{2}\Sigma_{i=1}^{N}\left(y^{(i)}-h_{\mathbf{\theta}}\left(\mathbf{x}^{(i)}\right)\right)^{2}$

目标:找到超平面参数\theta,使J(\theta)最小,即求解$\operatorname*{min}_{\mathbf{\theta}}J(\mathbf{\theta})$

求解:令$\frac{\partial J(\mathbf{\theta})}{\partial\mathbf{\theta}}=0$,即$\mathbf{\theta}=(\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top}\mathbf{y}$

二、线性二分类

1、定义:样本通过直线(或超平面)可分。

性分类器输入:特征向量

输出:哪一类。如果是二分类问题,则为0和1,或者是属于某类的 概率,即0-1之间的数。

2、线性分类与线性回归差别:

输出意义不同:属于某类的概率<->回归具体值

参数意义不同:最佳分类直线<->最佳拟合直线

维度不同:前面的例子中,一个是一维的回归,一个是二维的分类

3、 构造二分类的“分界直线”:

一边是负值,一边是正值。越属于这类,值越大(正),反之越小(负)。

三、梯度下降法

$J(\mathbf{\theta}_{k+1})=J(\mathbf{\theta}_k)+\left[\frac{dJ}{d\mathbf{\theta}}\right]^\mathsf{T}\Delta\mathbf{\theta}_k$

$\Delta\theta_{k}=-\alpha\frac{dJ}{d\theta}=-\alpha\nabla_{\theta}J$

则必然有:$J(\mathbf{\theta}_{k+1})\leq J(\mathbf{\theta}_k)$

四、多分类回归

代价函数写为:$l(\mathbf{y},\hat{\mathbf{y}})=-\sum_{j=1}^Ky_j\log\hat{y}_j$

称为交叉熵损失。

五、神经元模型

六、感知机原理

感知机(Perceptron)是1957年,由Rosenblatt提出,是神经网络和支持向量机的基础。感知机解决线性分类问题。

具体步骤:

输入:训练数据集$\{\mathbf{x}^{(i)},y^{(i)}\}$(监督学习)

输出:$\mathbf{w}$

1、赋初值$\mathbf{w_0}$,数据序号$i=1$,迭代次数k=0

3`、判断该数据点是否为当前模型的误分点,即判断:若$y^{(i)}(\mathbf{w}^{\mathsf{T}}\mathbf{x}^{(i)})\leq0$,则更新权值:$\mathbf{w}_{k+1}=\mathbf{w}_{k}+\eta y^{(i)}\mathbf{x}^{(i)}$

4、转到2,直到训练集中没有误分点。

七、多层感知机

XOR问题:线性不可分问题(无法进行线性分类)

解决方法:使用多层感知机

在输入和输出层间加一或多层隐单元,构成多层感知器(多层 前馈神经网络)。

• 加一层隐节点(单元)为三层网络,可解决异或(XOR)问题 。由输入得到两个隐节点、一个输出层节点的输出:

$\begin{gathered} y_{1}^{[1]}=f\left(w_{11}^{[1]}x_{1}+w_{12}^{[1]}x_{2}-\theta_{1}^{[1]}\right) \\ y_{2}^{[1]}=f\left(w_{21}^{[1]}x_{1}+w_{22}^{[1]}x_{2}-\theta_{2}^{[1]}\right) \\ y=f\left(w_{1}^{[2]}y_{1}^{[1]}+w_{2}^{[2]}y_{2}^{[1]}-\theta\right) \end{gathered}$

可得到:

八、多层前馈网络和BP算法

多层感知机是一种多层前馈网络,由多层神经网络构成,每层网络将 输出传递给下一层网络。神经元间的权值连接仅出现在相邻层之间, 不出现在其他位置。如果每一个神经元都连接到上一层的所有神经元 (除输入层外),则成为全连接网络。

多层前馈网络的反向传播 (BP)学习算法,简称BP算法,是有导师的学习,它是梯度下降法在多层前馈网中的应用。

算法简述:

总结:

优点:

·学习完全自主;

·可逼近任意非线性函数;

缺点:

·算法非全局收敛;

·收敛速度慢;

·学习速率的选择;

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐