nndl-复旦-神经网络与深度学习笔记第二章习题

第二章习题习题 2-1 分析为什么平方损失函数不适用于分类问题．分类问题中的标签，是没有连续的概念的。每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。假设分类问题的类别是1,2,3那么对于一个真实类别为2的样本X，模型的分类结果是 1 或 3，平方损失函数得到的结果都一样，显然不适合。解：yn维数为1∗1；wn和wn维数为n∗1&

CHH3213

1215人浏览 · 2020-11-19 23:17:35

CHH3213 · 2020-11-19 23:17:35 发布

第二章习题

参考资料

若有错误，请大家指正。

习题 2-1 分析为什么平方损失函数不适用于分类问题．

分类问题中的标签，是没有连续的概念的。每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。假设分类问题的类别是1,2,3 那么对于一个真实类别为2的样本X，模型的分类结果是 1 或 3，平方损失函数得到的结果都一样，显然不适合。

在这里插入图片描述

$解：y_n维数为1*1； w_n和w_n维数为n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~$

$显然：w^Tx_n=x_n^Tw$

$故：R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2}$

$对R(w)求导并让其为0，得：R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0$

$w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n})$

r(n): 为每个样本都分配了权重，相当于对每个样本都设置了不同的学习率，即，理解成对每个样本重视程度不同。
在这里插入图片描述

$答：\quad 已知：~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求：w^*=(XX^T+\lambda I)^{-1}Xy\\ 解：R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得：\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得证$

在这里插入图片描述

答：
$已知：\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注：\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的：w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化简得：\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得： \\ w^{ML}=(XX^T)^{-1}Xy\\$

在这里插入图片描述

$1)\quad x~~服从~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函数：~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化简得：\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故：~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N}$
2)
在这里插入图片描述

答：

答：

高偏差原因：
数据特征过少；
模型复杂度太低；
正则化系数λ太大；
高方差原因：
数据样例过少；
模型复杂度过高；
正则化系数λ太小；
没有使用交叉验证；

【注】：单纯增加训练集数目一般不会减小高偏差，但是会减小高方差。

在这里插入图片描述
答：未方便起见，将 $f_D(x)、f^*(x)$ 简化为 $f_D、f^*$
$E_D[(f_D-E_D[f_D]+E_D[f_D]-f^*)^2]\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[(f_D-E_d[f_D])(E_D[f_D]-f^*)]+E_D[(E_D[f_D]-f^*)^2] \\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[f_DE_D[f_D]-f_Df^*-E_D^2[f_D]+E_D[f_D]f^*]+E_D[E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D^2[f_D]-2E_D[f_Df^*]-2E_D^2[f_D]+2E_D[f_D]E_D[f^*]+E_D^2[f_D]-2E_D[f_D]E_D[f^*]+E_D[(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_Df^*]+E[(f^*)^2]\quad\quad\quad\quad$
注意：对于单个样本来说， $f^*$ 为常数，所以 $2E_D[f_Df^*]=2E_D[f_D]f^*$ , $E_D[(f^*)^2]=(f^*)^2$
所以，上述等式化为：
$=E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+(E_D[f_D[x]-f^*)^2\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
得证。

在这里插入图片描述

一元:

“我”、“打了”、“张三”
$x_1=[1, 1, 1]\\ x_2=[1,1,1]$
二元:

“#我”、“我打了”、“打了张三 ”、“张三打了”、“打了我“
$x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1]$
三元:

”##我“、”#我打了“、”我打了张三“、”打了张三#“、”张三打了我“、”打了我#“
$x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1]$
词袋模型将文本看作词的集合，不考虑词序信息，不能精确地表示文本信息

在这里插入图片描述

真实类别\预测类别	1	2	3
1	1	1	0
2	0	2	1
3	1	1	2

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git