参考书籍:《大数据:互联网大规模数据挖掘与分布式处理》(第二版)

原版英文书籍:Mining of Massive Datasets

注:答案为本人自己做的,并非标准答案,仅供参考。
如有错误,请私信我,我将及时修改。

《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第一章习题答案

注:本书包含大量习题,较难的习题或习题中较难的部分都会用!标记,最难的习题用!!标记。

习题1.2.1

在这里插入图片描述

每个人每100天当中有一天会去宾馆。

给定某天,任意一个人都决定去宾馆的概率为1/100=0.01。

给定某天,任意两个人都决定去宾馆的概率为 (0.01)2=0.0001。

宾馆总数为200000个。

给定某天,任意两个人都决定入住同一宾馆的概率为 0.0001/200000=5×10-10

故,在任意给定的不同的三个日子里,两人入住同一宾馆的概率就是5×10-10的立方,即1.25×10-28

在20亿的人员中,组队个数为(2×109)2/2=2×1018

而在2000天内,任意三天的组合个数为2000×1999×1998/3!=1331334000。

疑似作恶事件的期望数目应该是:2×1018×1331334000×1.25×10-28=0.3328。

也就是说,可能的嫌疑人员对的数目是0.3328。

!习题1.2.2

在这里插入图片描述

假设:

  1. 观察天数为1年(365天)。
  2. 总人数为1亿。
  3. 超市只有1个,有1000种商品。
  4. 每人每年去超市100次,每次买10种商品。
  5. 我们将对1年的超市购买记录进行核查。
  6. 任意两个人在任意给定的一个日子里购买相同的10种商品,则这两个人是恐怖分子。

给定某天,任意一个人都决定去超市的概率为100/365=0.27。

给定某天,任意两个人都决定去超市的概率为 (100/365)2=0.0751。

任意两个人购买相同的10种商品的概率为(1/C101000)2=1.4412×10-47

在1亿的人员中,组队个数为(1×108)2/2=1×1016

在1年中,任意一天的组合数是365。

疑似作恶事件的期望数目应该是:1×1016×365×0.0751×1.4412×10-47=3.9486×10-34

也就是说,可能的嫌疑人员对的数目是3.9486×10-34,概率实在太低了,不能期望发现任意这类人员都是真正的恐怖分子。

习题1.3.1

在这里插入图片描述

(a) IDF=log2(107/40)=17.9≈18。

(b)IDF=log2(107/10000)=9.97≈10。

习题1.3.2

在这里插入图片描述

IDF=log2(107/320)≈14.93。

(a) TF=1/15, TF.IDF=TF×IDF=0.9954。

(b) TF=5/15=1/3, TF.IDF=TF×IDF=2.9863。

!习题1.3.3

在这里插入图片描述

c=1

注:猜的

习题1.3.4

在这里插入图片描述

(a) (1.01)500=(1+0.01)500≈e0.01×500=e5

(b) (1.05)1000=(1+0.05)1000≈e0.05×1000=e50

© (0.9)40=(1-0.1)1000≈e-0.1×40=e-4

习题1.3.5

在这里插入图片描述

(a) e1/10=1+0.1+(0.1)2/2+(0.1)3/6≈1.105。

(b) e-1/10=1-0.1+(-0.1)2/2+(-0.1)3/6≈0.905。

© e2=1+2+22/2+23/6≈7.389。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐