2.3 Logistic 回归损失函数-深度学习-Stanford吴恩达教授
Logistic 回归损失函数课程PPT
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
2.2 Logistic 回归 | 回到目录 | 2.4 梯度下降法 |
Logistic 回归损失函数 (Logistic Regression Cost Function)
在上个视频中,我们讲了逻辑回归模型,这个视频里,我们讲逻辑回归的代价函数(也翻译作成本函数)。
为什么需要代价函数:
为了训练逻辑回归模型的参数 w w w 和参数 b b b ,我们需要一个代价函数,通过训练代价函数来得到参数 w w w 和参数 b b b。先看一下逻辑回归的输出函数:
为了让模型通过学习调整参数,你需要给予一个 m m m 样本的训练集,这会让你在训练集上找到参数 w w w 和参数 b b b,来得到你的输出。
对训练集的预测值,我们将它写成 y ^ \hat{y} y^,我们更希望它会接近于训练集中的 y y y 值,为了对上面的公式更详细的介绍,我们需要说明上面的定义是对一个训练样本来说的,这种形式也使用于每个训练样本,我们使用这些带有圆括号的上标来区分索引和样本,训练样本 i i i 所对应的预测值是 y ( i ) y^{(i)} y(i),是用训练样本的 w T x ( i ) + b w^Tx^{(i)}+b wTx(i)+b 然后通过sigmoid函数来得到,也可以把 z z z 定义为 z ( i ) = w T x ( i ) + b z^{(i)}=w^Tx^{(i)}+b z(i)=wTx(i)+b,我们将使用这个符号 ( i ) (i) (i) 注解,上标 ( i ) (i) (i) 来指明数据表示 x x x 或者 y y y 或者 z z z 或者其他数据的第 i i i 个训练样本,这就是上标 ( i ) (i) (i) 的含义。
损失函数:
损失函数又叫做误差函数,用来衡量算法的运行情况,Loss function: L ( y ^ , y ) L(\hat{y},y) L(y^,y).
我们通过这个称为 L L L 的损失函数,来衡量预测输出值和实际值有多接近。一般我们用预测值和实际值的平方差或者它们平方差的一半,但是通常在逻辑回归中我们不这么做,因为当我们在学习逻辑回归参数的时候,会发现我们的优化目标不是凸优化,只能找到多个局部最优值,梯度下降法很可能找不到全局最优值,虽然平方差是一个不错的损失函数,但是我们在逻辑回归模型中会定义另外一个损失函数。
我们在逻辑回归中用到的损失函数是:
L ( y ^ , y ) = − y log ( y ^ ) − ( 1 − y ) log ( 1 − y ^ ) L(\hat{y},y)=-y\log(\hat{y})-(1-y)\log(1-\hat{y}) L(y^,y)=−ylog(y^)−(1−y)log(1−y^)
为什么要用这个函数作为逻辑损失函数?当我们使用平方误差作为损失函数的时候,你会想要让这个误差尽可能地小,对于这个逻辑回归损失函数,我们也想让它尽可能地小,为了更好地理解这个损失函数怎么起作用,我们举两个例子:
当 y = 1 y=1 y=1 时损失函数 L = − log ( y ^ ) L=-\log(\hat{y}) L=−log(y^),如果想要损失函数 L L L 尽可能得小,那么 y ^ \hat{y} y^ 就要尽可能大,因为sigmoid函数取值 [ 0 , 1 ] [0,1] [0,1],所以 y ^ \hat{y} y^ 会无限接近于1。
当 y = 0 y=0 y=0 时损失函数 L = − log ( 1 − y ^ ) L=-\log(1-\hat{y}) L=−log(1−y^),如果想要损失函数 L L L 尽可能得小,那么 y ^ \hat{y} y^ 就要尽可能小,因为sigmoid函数取值 [ 0 , 1 ] [0,1] [0,1],所以 y ^ \hat{y} y^ 会无限接近于0。
在这门课中有很多的函数效果和现在这个类似,就是如果 y y y 等于1,我们就尽可能让 y ^ \hat{y} y^ 变大,如果等 y y y 于0,我们就尽可能让 y ^ \hat{y} y^ 变小。 损失函数是在单个训练样本中定义的,它衡量的是算法在单个训练样本中表现如何,为了衡量算法在全部训练样本上的表现如何,我们需要定义一个算法的代价函数,算法的代价函数是对 m m m 个样本的损失函数求和然后除以 m m m :
J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) = 1 m ∑ i = 1 m ( − y ( i ) log y ^ ( i ) − ( 1 − y ( i ) ) log ( 1 − y ^ ( i ) ) ) J(w,b)=\frac1m\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})=\frac1m\sum_{i=1}^m(-y^{(i)}\log\hat{y}^{(i)}-(1-y^{(i)})\log(1-\hat{y}^{(i)})) J(w,b)=m1i=1∑mL(y^(i),y(i))=m1i=1∑m(−y(i)logy^(i)−(1−y(i))log(1−y^(i)))
损失函数只适用于像这样的单个训练样本,而代价函数是参数的总代价,所以在训练逻辑回归模型时候,我们需要找到合适的 w w w 和 b b b ,来让代价函数 J J J 的总代价降到最低。 根据我们对逻辑回归算法的推导及对单个样本的损失函数的推导和针对算法所选用参数的总代价函数的推导,结果表明逻辑回归可以看做是一个非常小的神经网络,在下一个视频中,我们会看到神经网络会做什么。
课程PPT
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
2.2 Logistic 回归 | 回到目录 | 2.4 梯度下降法 |
更多推荐
所有评论(0)