《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第一章习题答案
《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第一章习题答案
《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第一章习题答案
参考书籍:《大数据:互联网大规模数据挖掘与分布式处理》(第二版)
原版英文书籍:Mining of Massive Datasets
注:答案为本人自己做的,并非标准答案,仅供参考。
如有错误,请私信我,我将及时修改。
《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第一章习题答案
注:本书包含大量习题,较难的习题或习题中较难的部分都会用!标记,最难的习题用!!标记。
习题1.2.1
每个人每100天当中有一天会去宾馆。
给定某天,任意一个人都决定去宾馆的概率为1/100=0.01。
给定某天,任意两个人都决定去宾馆的概率为 (0.01)2=0.0001。
宾馆总数为200000个。
给定某天,任意两个人都决定入住同一宾馆的概率为 0.0001/200000=5×10-10。
故,在任意给定的不同的三个日子里,两人入住同一宾馆的概率就是5×10-10的立方,即1.25×10-28。
在20亿的人员中,组队个数为(2×109)2/2=2×1018。
而在2000天内,任意三天的组合个数为2000×1999×1998/3!=1331334000。
疑似作恶事件的期望数目应该是:2×1018×1331334000×1.25×10-28=0.3328。
也就是说,可能的嫌疑人员对的数目是0.3328。
!习题1.2.2
假设:
- 观察天数为1年(365天)。
- 总人数为1亿。
- 超市只有1个,有1000种商品。
- 每人每年去超市100次,每次买10种商品。
- 我们将对1年的超市购买记录进行核查。
- 任意两个人在任意给定的一个日子里购买相同的10种商品,则这两个人是恐怖分子。
给定某天,任意一个人都决定去超市的概率为100/365=0.27。
给定某天,任意两个人都决定去超市的概率为 (100/365)2=0.0751。
任意两个人购买相同的10种商品的概率为(1/C101000)2=1.4412×10-47。
在1亿的人员中,组队个数为(1×108)2/2=1×1016。
在1年中,任意一天的组合数是365。
疑似作恶事件的期望数目应该是:1×1016×365×0.0751×1.4412×10-47=3.9486×10-34。
也就是说,可能的嫌疑人员对的数目是3.9486×10-34,概率实在太低了,不能期望发现任意这类人员都是真正的恐怖分子。
习题1.3.1
(a) IDF=log2(107/40)=17.9≈18。
(b)IDF=log2(107/10000)=9.97≈10。
习题1.3.2
IDF=log2(107/320)≈14.93。
(a) TF=1/15, TF.IDF=TF×IDF=0.9954。
(b) TF=5/15=1/3, TF.IDF=TF×IDF=2.9863。
!习题1.3.3
c=1
注:猜的
习题1.3.4
(a) (1.01)500=(1+0.01)500≈e0.01×500=e5。
(b) (1.05)1000=(1+0.05)1000≈e0.05×1000=e50。
© (0.9)40=(1-0.1)1000≈e-0.1×40=e-4。
习题1.3.5
(a) e1/10=1+0.1+(0.1)2/2+(0.1)3/6≈1.105。
(b) e-1/10=1-0.1+(-0.1)2/2+(-0.1)3/6≈0.905。
© e2=1+2+22/2+23/6≈7.389。
更多推荐
所有评论(0)