nndl-复旦-神经网络与深度学习笔记第二章习题
第二章习题习题 2-1 分析为什么平方损失函数不适用于分类问题.分类问题中的标签,是没有连续的概念的。每个标签之间的距离也是没有实际意义的,所以预测值 和 标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。假设分类问题的类别是1,2,3那么对于一个真实类别为2的样本X,模型的分类结果是 1 或 3,平方损失函数得到的结果都一样,显然不适合。解:yn维数为1∗1;wn和wn维数为n∗1&
第二章习题
参考资料
若有错误,请大家指正。
-
习题 2-1 分析为什么平方损失函数不适用于分类问题.
分类问题中的标签,是没有连续的概念的。每个标签之间的距离也是没有实际意义的,所以预测值 和 标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。 假设分类问题的类别是1,2,3 那么对于一个真实类别为2的样本X,模型的分类结果是 1 或 3,平方损失函数得到的结果都一样,显然不适合。

解 : y n 维 数 为 1 ∗ 1 ; w n 和 w n 维 数 为 n ∗ 1 解:y_n维数为1*1; w_n和w_n维数为n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 解:yn维数为1∗1;wn和wn维数为n∗1
显 然 : w T x n = x n T w 显然:w^Tx_n=x_n^Tw 显然:wTxn=xnTw
故 : R ( w ) = 1 2 ∑ n = 1 N r n ( y n − x n T w ) 2 故:R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2} 故:R(w)=21n=1∑Nrn(yn−xnTw)2
对 R ( w ) 求 导 并 让 其 为 0 , 得 : R ( w ) = ∑ n = 1 N − r n x n ( y n − x n T w ) = 0 对R(w)求导并让其为0,得:R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0 对R(w)求导并让其为0,得:R(w)=n=1∑N−rnxn(yn−xnTw)=0
即 : w ∗ = ( ∑ n = 1 N ( r n x n x n T ) − 1 ) ( ∑ n = 1 N r n x n y n ) 即: w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n}) 即:w∗=(n=1∑N(rnxnxnT)−1)(n=1∑Nrnxnyn)
r(n): 为每个样本都分配了权重,相当于对每个样本都设置了不同的学习率,即,理解成对每个样本重视程度不同。


答 : 已 知 : R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 要 求 : w ∗ = ( X X T + λ I ) − 1 X y 解 : R ( w ) = 1 2 ( y − X T w ) T ( y − X T w ) + 1 2 λ w T w 令 ∂ R ( w ) ∂ w = 0 , 得 : ∂ R ( w ) ∂ w = − X ( y − X T w ) + λ w = 0 解 得 : w ∗ = ( X X T + λ I ) − 1 X y 得 证 答:\quad 已知:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求:w^*=(XX^T+\lambda I)^{-1}Xy\\ 解:R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得:\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得证 答:已知: R(w)=21∣∣y−XTw∣∣2+21λ∣∣w∣∣2要求:w∗=(XXT+λI)−1Xy解:R(w)=21(y−XTw)T(y−XTw)+21λwTw令∂w∂R(w)=0,得:∂w∂R(w)=−X(y−XTw)+λw=0解得:w∗=(XXT+λI)−1Xy得证

答:
已 知 : log p ( y ∣ X ; w , δ ) = ∑ n = 1 N log N ( y n ; w T x n , δ 2 ) 注 : N ( y n ; w T x n , δ 2 ) = 1 2 π δ e x p ( − ( y n − w T x n ) 2 2 δ 2 ) 目 的 : w M L = ( X X T ) − 1 X y 令 ∂ log p ( y ∣ X ; w , δ ) ∂ w = 0 , 化 简 得 : ∂ ( ∑ n = 1 N − ( y n − w T x n ) 2 2 β ) ∂ w = 0 ∂ 1 2 ∣ ∣ y − X T w ∣ ∣ 2 ∂ w = 0 − X ( y − X T w ) = 0 得 : w M L = ( X X T ) − 1 X y 已知:\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注:\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的:w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化简得:\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得: \\ w^{ML}=(XX^T)^{-1}Xy\\ 已知:logp(y∣X;w,δ)=n=1∑NlogN(yn;wTxn,δ2)注:N(yn;wTxn,δ2)=2πδ1exp(−2δ2(yn−wTxn)2)目的:wML=(XXT)−1Xy令∂w∂logp(y∣X;w,δ)=0,化简得:∂w∂(∑n=1N2β−(yn−wTxn)2)=0∂w∂21∣∣y−XTw∣∣2=0−X(y−XTw)=0得:wML=(XXT)−1Xy

1 ) x 服 从 N ( x n ; μ , δ 2 ) : log N ( x n ; μ , δ 2 ) = log 1 2 π δ e x p ( − ( x n − μ ) 2 2 δ 2 ) = 1 2 l o g 1 2 π δ 2 − ( x n − μ ) 2 2 δ 2 似 然 函 数 : log p ( x ∣ μ , δ ) = ∑ n = 1 N log N ( x n ; μ , δ 2 ) = N 2 l o g 1 2 π δ 2 − ∑ n = 1 N ( x n − μ ) 2 2 δ 2 令 ∂ log p ( x ∣ μ , δ ) ∂ μ = 0 , 化 简 得 : ∑ n = 1 N x n δ 2 = N μ δ 2 故 : μ M L = ∑ n = 1 N x n N 1)\quad x~~服从~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函数:~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化简得:\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故:~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N} 1)x 服从 N(xn;μ,δ2): logN(xn;μ,δ2)=log2πδ1exp(−2δ2(xn−μ)2)=21log2πδ21−2δ2(xn−μ)2似然函数: logp(x∣μ,δ)=n=1∑NlogN(xn;μ,δ2)=2Nlog2πδ21−n=1∑N2δ2(xn−μ)2令∂μ∂logp(x∣μ,δ)=0,化简得:n=1∑Nδ2xn=δ2Nμ故: μML=N∑n=1Nxn
2)

答:





答:
- 高偏差原因:
数据特征过少;
模型复杂度太低;
正则化系数λ太大; - 高方差原因:
数据样例过少;
模型复杂度过高;
正则化系数λ太小;
没有使用交叉验证;
【注】:单纯增加训练集数目一般不会减小高偏差,但是会减小高方差。

答:未方便起见,将 f D ( x ) 、 f ∗ ( x ) f_D(x)、f^*(x) fD(x)、f∗(x)简化为 f D 、 f ∗ f_D、f^* fD、f∗
E D [ ( f D − E D [ f D ] + E D [ f D ] − f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + 2 E D [ ( f D − E d [ f D ] ) ( E D [ f D ] − f ∗ ) ] + E D [ ( E D [ f D ] − f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + 2 E D [ f D E D [ f D ] − f D f ∗ − E D 2 [ f D ] + E D [ f D ] f ∗ ] + E D [ E D 2 [ f D ] − 2 E D [ f D ] f ∗ + ( f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + 2 E D 2 [ f D ] − 2 E D [ f D f ∗ ] − 2 E D 2 [ f D ] + 2 E D [ f D ] E D [ f ∗ ] + E D 2 [ f D ] − 2 E D [ f D ] E D [ f ∗ ] + E D [ ( f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + E D 2 [ f D ] − 2 E D [ f D f ∗ ] + E [ ( f ∗ ) 2 ] E_D[(f_D-E_D[f_D]+E_D[f_D]-f^*)^2]\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[(f_D-E_d[f_D])(E_D[f_D]-f^*)]+E_D[(E_D[f_D]-f^*)^2] \\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[f_DE_D[f_D]-f_Df^*-E_D^2[f_D]+E_D[f_D]f^*]+E_D[E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D^2[f_D]-2E_D[f_Df^*]-2E_D^2[f_D]+2E_D[f_D]E_D[f^*]+E_D^2[f_D]-2E_D[f_D]E_D[f^*]+E_D[(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_Df^*]+E[(f^*)^2]\quad\quad\quad\quad ED[(fD−ED[fD]+ED[fD]−f∗)2]=ED[(fD−ED[fD])2]+2ED[(fD−Ed[fD])(ED[fD]−f∗)]+ED[(ED[fD]−f∗)2]=ED[(fD−ED[fD])2]+2ED[fDED[fD]−fDf∗−ED2[fD]+ED[fD]f∗]+ED[ED2[fD]−2ED[fD]f∗+(f∗)2]=ED[(fD−ED[fD])2]+2ED2[fD]−2ED[fDf∗]−2ED2[fD]+2ED[fD]ED[f∗]+ED2[fD]−2ED[fD]ED[f∗]+ED[(f∗)2]=ED[(fD−ED[fD])2]+ED2[fD]−2ED[fDf∗]+E[(f∗)2]
注意:对于单个样本来说, f ∗ f^* f∗为常数,所以 2 E D [ f D f ∗ ] = 2 E D [ f D ] f ∗ 2E_D[f_Df^*]=2E_D[f_D]f^* 2ED[fDf∗]=2ED[fD]f∗, E D [ ( f ∗ ) 2 ] = ( f ∗ ) 2 E_D[(f^*)^2]=(f^*)^2 ED[(f∗)2]=(f∗)2
所以,上述等式化为:
= E D [ ( f D − E D [ f D ] ) 2 ] + E D 2 [ f D ] − 2 E D [ f D ] f ∗ + ( f ∗ ) 2 = E D [ ( f D − E D [ f D ] ) 2 ] + ( E D [ f D [ x ] − f ∗ ) 2 =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+(E_D[f_D[x]-f^*)^2\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad =ED[(fD−ED[fD])2]+ED2[fD]−2ED[fD]f∗+(f∗)2=ED[(fD−ED[fD])2]+(ED[fD[x]−f∗)2
得证。

-
一元:
“我”、“打了”、“张三”
x 1 = [ 1 , 1 , 1 ] x 2 = [ 1 , 1 , 1 ] x_1=[1, 1, 1]\\ x_2=[1,1,1] x1=[1,1,1]x2=[1,1,1] -
二元:
“#我”、“我打了”、“打了张三 ”、“张三打了”、“打了我“
x 1 = [ 1 , 1 , 1 , 1 , 0 ] x 2 = [ 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1] x1=[1,1,1,1,0]x2=[0,0,0,1,1] -
三元:
”##我“、”#我打了“、”我打了张三“、”打了张三#“、”张三打了我“、”打了我#“
x 1 = [ 1 , 1 , 1 , 1 , 0 , 0 ] x 2 = [ 0 , 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1] x1=[1,1,1,1,0,0]x2=[0,0,0,0,1,1]
词袋模型将文本看作词的集合, 不考虑词序信息, 不能精确地表示文本信息

| 真实类别\预测类别 | 1 | 2 | 3 |
|---|---|---|---|
| 1 | 1 | 1 | 0 |
| 2 | 0 | 2 | 1 |
| 3 | 1 | 1 | 2 |
更多推荐
所有评论(0)