深度学习基础知识——信息论(自信息、信息熵与马尔科夫链)
信息论是在信息或不确定性可度量的前提下,研究有效、可靠、安全地传输信息的科学。(【注】:符号约定:大写字母表示集合,小写字母表示集合中的事件)1.前言从常识来看,小概率事件的不确定性大,一旦出现必然使人感到意外,因此产生的信息量就大,特别是几乎不可能出现的事件一旦出现,必然产生极大的信息量;大概率事件是预料之中的事件,不确定性小,即使发生也没什么信息量,特别是概率为1的确定事件发生以后,不会给人以
信息论是在信息或不确定性可度量的前提下,研究有效、可靠、安全地传输信息的科学。
(【注】:符号约定:大写字母表示集合,小写字母表示集合中的事件)
1.前言
从常识来看,小概率事件的不确定性大,一旦出现必然使人感到意外,因此产生的信息量就大,特别是几乎不可能出现的事件一旦出现,必然产生极大的信息量;大概率事件是预料之中的事件,不确定性小,即使发生也没什么信息量,特别是概率为1的确定事件发生以后,不会给人以任何信息量。一般的,事件发生的概率越小,其不确定性越大,事件发生以后所含有的信息量就越大。
2.自信息与互信息
自信息是对消息或消息集合本身所含信息量多少的度量;而互信息是对消息之间或消息集合之间相互提供信息量多少的度量。
2.1 自信息
事件集合X中的事件x=ai的自信息定义为:
I
X
(
a
i
)
=
−
l
o
g
P
X
(
a
i
)
I_X(a_i)=-logP_X(a_i)
IX(ai)=−logPX(ai)
简记为:
I
(
x
)
=
−
l
o
g
p
(
x
)
I(x)=-logp(x)
I(x)=−logp(x)
要求自信息I为非负值,对数的底必须大于1.
关于对数底的选取有以下几种:
- 以2为底:单位为比特(bit),工程上常用。
- 以3为底:单位为Tit。
例题:
4.信息熵/熵(Entropy)
自信息的平均值称为信息熵,又称为Shannon熵、通信熵,简称为熵,记为H(X)。
即
H
(
X
)
=
E
[
I
(
X
)
]
=
∑
x
p
X
(
x
)
I
(
x
)
=
−
∑
x
p
(
x
)
l
o
g
p
(
x
)
H(X)=E[I(X)]=\sum\limits_{x} p_X(x)I(x)=-\sum\limits_{x} p(x)logp(x)
H(X)=E[I(X)]=x∑pX(x)I(x)=−x∑p(x)logp(x)
信息熵表明了X中事件发生的平均不确定性,即为了在观测或试验之前确定X中发生一个事件平均所需要的信息,或者在观测之后,确定X中每发生一个事件平均给出的信息量。
例题:
【注】:信息熵越大,不确定性越高。
与热力学上的熵类似,信息熵也是紊乱程度的一种度量。信息熵也是动态的,信息熵只会减少,不可能增加,这就是信息熵不增原理。
5.交叉熵
6.KL散度
7.马尔科夫链
7.1 基本概念
马尔科夫链是一种特殊的随机过程,即是一种时间离散、状态离散的无后效过程。
7.2 转移概率
一步转移概率:
n步转移概率:
7.3齐次性和遍历性
(关于马尔科夫链的相关知识,未完待续)
更多推荐
所有评论(0)