统计分布常用于总体的建模,因此我们处理的往往不是单个的分布,而是一族分布。一个分布族共用一个函数形式,其中包含一个或多个参数,用以确定具体的分布。

1 离散分布

1.1 二项分布

(1)参数为 p 的(0-1)分布(Bernoulli)
        分布律 :
P ( X = x ∣ p ) = p x ( 1 − p ) 1 − x ; x = 0 , 1 ; 0 ≤ p ≤ 1 (1-1) P(X=x|p)=p^x(1-p)^{1-x};x=0,1;0 \leq p \leq 1\tag{1-1} P(X=xp)=px(1p)1xx=0,10p1(1-1)
        期望和方差:
E X = p , D X = p ( 1 − p ) (1-2) EX=p,DX=p(1-p)\tag{1-2} EX=pDX=p(1p)(1-2)
        矩母函数:
M X ( t ) = ( 1 − p ) + p e t (1-3) M_X(t)=(1-p)+pe^t\tag{1-3} MX(t)=(1p)+pet(1-3)

(2)参数为(n,p)的二项分布(Binomial)

        分布律:
P ( X = x ∣ n , p ) = ( n x ) p x ( 1 − p ) n − x ; x = 0 , 1 , 2 , ⋯   , n ; 0 ≤ p ≤ 1 (1-4) P(X=x|n,p)= \begin{pmatrix} n \\ x \\ \end{pmatrix} p^x(1-p)^{n-x};x=0,1,2,\cdots,n;0 \leq p \leq 1\tag{1-4} P(X=xnp)=(nx)px(1p)nxx=012,,n0p1(1-4)
        期望和方差:
E X = n p , D X = n p ( 1 − p ) (1-5) EX=np,DX=np(1-p)\tag{1-5} EX=npDX=np(1p)(1-5)
        矩母函数:
M X ( t ) = [ p e t + ( 1 − p ) ] n (1-6) M_X(t)=[pe^t +(1-p)]^n\tag{1-6} MX(t)=[pet+(1p)]n(1-6)

        提示: 多项分布是二项分布在多变量情形下的推广。

(3)categorical分布

        Categorical Distribution,翻译为分类分步、范畴分布,也称作 multinoulli 分布。假设随机变量 X ∈ { 1 , 2 , ⋯   , K } X \in \{1, 2, \cdots, K\} X{1,2,,K},其概率分布函数为:
P ( X = 1 ) = θ 1 P ( X = 2 ) = θ 2 ⋯ P ( X = K − 1 ) = θ K − 1 P ( X = K ) = 1 − ∑ i = 1 K − 1 θ i (1-7) \begin{aligned}P(X = 1) = \theta_1 \\ P(X = 2) = \theta_2 \\ \cdots\\ P(X = K - 1) = \theta_{K -1} P(X = K) = 1 -\sum_{i=1}^{K-1}\theta_i \end{aligned}\tag{1-7} P(X=1)=θ1P(X=2)=θ2P(X=K1)=θK1P(X=K)=1i=1K1θi(1-7)
        其中 θ i \theta_i θi 为参数,它满足 θ i ∈ [ 0 , 1 ] ,且 ∑ i = 1 K − 1 θ i ∈ [ 0 , 1 ] \theta_i \in [0, 1],且 \sum_{i=1}^{K-1}\theta_i \in [0, 1] θi[0,1],且i=1K1θi[0,1]

        注: 由于要处理含参分布,这类分布通常依赖于参数的取值。这里将参数记于概率分布函数中并以 | 为引导符。这个写法对累积分布函数、概率密度函数、期望及其他需要特别指出参数的地方都通用。在不会引发混淆的前提下,也可以略去参数以简化记号。方差可以表示为 DX 或者 Var X

1.2 离散均匀分布

        分布律:
P ( X = x ∣ N ) = 1 N ; x = 1 , 2 , ⋯   , N ; N = 1 , 2 , ⋯ (1-8) P(X=x|N)=\frac{1}{N};x=1, 2, \cdots, N;N=1, 2, \cdots\tag{1-8} P(X=xN)=N1x=1,2,,NN=1,2,(1-8)
        期望和方差:
E X = N + 1 2 , D X = ( N + 1 ) ( N − 1 ) 12 (1-9) EX=\frac{N+1}{2},DX=\frac{(N+1)(N-1)}{12}\tag{1-9} EX=2N+1DX=12(N+1)(N1)(1-9)
        矩母函数:
M X ( t ) = 1 N ∑ i = 1 N e i t (1-10) M_X(t) = \frac{1}{N}\sum_{i=1}^{N}e^{it}\tag{1-10} MX(t)=N1i=1Neit(1-10)

1.3 几何分布

(1)Geometric(p)
        分布律:
P ( X = x ∣ p ) = p ( 1 − p ) x − 1 ; x = 1 , 2 , ⋯ ; 0 ≤ p ≤ 1 (1-11) P(X=x | p)=p(1-p)^{x-1};x=1, 2, \cdots;0\leq p \leq1\tag{1-11} P(X=xp)=p(1p)x1x=1,2,0p1(1-11)
        期望和方差:
E X = 1 p , D X = 1 − p p 2 (1-12) EX = \frac{1}{p},DX= \frac{1-p}{p^2}\tag{1-12} EX=p1DX=p21p(1-12)
        矩母函数:
M X ( t ) = p e t 1 − ( 1 − p ) e t , t < − log ⁡ ( 1 − p ) (1-13) M_X(t) = \frac{pe^t}{1-(1-p)e^t},t < - \log(1-p)\tag{1-13} MX(t)=1(1p)etpett<log(1p)(1-13)
        注: Y = X − 1 Y=X-1 Y=X1服从参数为(1, p)的负二项分布。几何分布是无记忆的, P ( X > s ∣ X > t ) = P ( X > s − t ) P(X>s | X>t)=P(X>s-t) P(X>sX>t)=P(X>st)

1.4 超几何分布

        分布律:
P ( X = x ∣ N , M , K ) = ( M x ) ( N − M K − x ) ( N K ) ; x = 0 , 1 , 2 , ⋯   , K ; M − ( N − K ) ≤ x ≤ M ; N , M , K ≥ 0 (1-14) P(X=x|N, M, K)=\frac{\begin{pmatrix} M \\ x \end{pmatrix} \begin{pmatrix} N-M \\ K-x \end{pmatrix}}{\begin{pmatrix} N \\ K \end{pmatrix}};x=0, 1, 2, \cdots, K;M-(N-K) \leq x \leq M;N, M, K \geq 0\tag{1-14} P(X=xN,M,K)=(NK)(Mx)(NMKx)x=0,1,2,,KM(NK)xMN,M,K0(1-14)
        期望和方差:
E X = K M N , D X = K M N ( N − M ) ( N − K ) N ( N − 1 ) (1-15) EX = \frac{KM}{N},DX= \frac{KM}{N}\frac{(N-M)(N-K)}{N(N-1)}\tag{1-15} EX=NKMDX=NKMN(N1)(NM)(NK)(1-15)
        注:如果 K ≤ M , N K \leq M, N KM,N,则 x 的范围 x = 0 , 1 , 2 , ⋯   , K x=0, 1, 2, \cdots, K x=0,1,2,,K 是适宜的。

1.5 负二项分布

(1)参数为(r, p)的负二项分布 NB(r, p)
        分布律:
P ( X = x ∣ r , p ) = ( r + x − 1 x ) p r ( 1 − p ) x ; x = 0 , 1 , ⋯ ; 0 ≤ p ≤ 1 (1-16) P(X=x | r, p)=\begin{pmatrix} r+x-1 \\ x \end{pmatrix}p^r(1-p)^x;x=0, 1, \cdots;0 \leq p \leq 1\tag{1-16} P(X=xr,p)=(r+x1x)pr(1p)xx=0,1,0p1(1-16)
        期望和方差:
E X = r ( 1 − p ) p , D X = r ( 1 − p ) p 2 (1-17) EX = \frac{r(1-p)}{p},DX= \frac{r(1-p)}{p^2}\tag{1-17} EX=pr(1p)DX=p2r(1p)(1-17)
        矩母函数:
M X ( t ) = ( p 1 − ( 1 − p ) e t ) r , t < − log ⁡ ( 1 − p ) (1-18) M_X(t) = (\frac{p}{1-(1-p)e^t})^r,t < - \log(1-p)\tag{1-18} MX(t)=(1(1p)etp)rt<log(1p)(1-18)
        注:分布律的另一个形式为 P ( Y = y ∣ r , p ) = ( y − 1 r − 1 ) p r ( 1 − p ) y − r , y = r , r + 1 , ⋯ P(Y=y | r, p)=\begin{pmatrix} y-1 \\ r-1 \end{pmatrix}p^r(1-p)^{y-r},y=r, r+1, \cdots P(Y=yr,p)=(y1r1)pr(1p)yry=r,r+1,。相应的随机变量为 Y = X + r Y=X+r Y=X+r。负二项分布可以从 Poisson 分布的伽玛混合得到。

1.6 Poisson分布

(1) P o i s s o n ( λ ) Poisson(\lambda) Poisson(λ)
        分布律:
P ( X = x ∣ λ ) = e − λ λ x x ! ; x = 0 , 1 , ⋯ ; 0 ≤ λ < ∞ (1-19) P(X=x | \lambda)=\frac{e^{-\lambda}{\lambda}^x}{x!};x=0, 1, \cdots;0 \leq \lambda < \infty\tag{1-19} P(X=xλ)=x!eλλxx=0,1,0λ<(1-19)
        期望和方差:
E X = λ , D X = λ (1-20) EX = \lambda,DX = \lambda\tag{1-20} EX=λDX=λ(1-20)
        矩母函数:
M X ( t ) = e λ ( e t − 1 ) (1-21) M_X(t) =e^{\lambda(e^t -1)}\tag{1-21} MX(t)=eλ(et1)(1-21)


2 连续分布

2.1 均匀分布

(1) U n i f o r m ( a , b ) Uniform(a, b) Uniforma,b
        概率密度函数:
f ( x ∣ a , b ) = 1 b − a , a ≤ x ≤ b (2-1) f(x | a, b) = \frac{1}{b-a},a \leq x \leq b\tag{2-1} f(xa,b)=ba1axb(2-1)
        期望和方差:
E X = b + a 2 , D X = ( b − a ) 2 12 (2-2) EX = \frac{b + a}{2},DX = \frac{(b - a)^2}{12}\tag{2-2} EX=2b+aDX=12(ba)2(2-2)
        矩母函数:
M X ( t ) = e b t − e a t ( b − a ) t (2-3) M_X(t) = \frac{e^{bt} - e^{at}}{(b-a)^t}\tag{2-3} MX(t)=(ba)tebteat(2-3)
        注:如果 a = 0,b = 1,则是贝塔分布的特例 ( α = β = 1 ) (\alpha = \beta = 1) (α=β=1)

2.2 指数分布

(1)EXPO ( β ) (\beta) (β)
        概率密度函数:
f ( x ∣ λ ) = e − x / λ λ , 0 ≤ x < ∞ , λ > 0 (2-4) f(x | \lambda) = \frac{e^{-x / \lambda}}{\lambda},0 \leq x < \infty,\lambda > 0\tag{2-4} f(xλ)=λex/λ0x<λ>0(2-4)
        期望和方差:
E X = λ , D X = λ 2 (2-5) EX = \lambda,DX = \lambda^2\tag{2-5} EX=λDX=λ2(2-5)
        矩母函数:
M x ( t ) = 1 1 − λ t , t < 1 λ (2-6) M_x(t)=\frac{1}{1- \lambda t},t < \frac{1}{\lambda}\tag{2-6} Mx(t)=1λt1t<λ1(2-6)
        注:伽玛分布的特殊情况。具有无记忆性。有许多特殊结果: Y = X 1 / γ Y=X^{1/ \gamma} Y=X1/γ 服从Weibull分布, Y = ( 2 X / λ ) Y = \sqrt{(2X/\lambda)} Y=(2X/λ) 服从 Rayleigh 分布, Y = α − γ log ⁡ ( X / λ ) Y = \alpha - \gamma \log(X/\lambda) Y=αγlog(X/λ)服从 Gumbel 分布。

2.3 正态分布

(1) n ( μ , σ 2 ) n(\mu, \sigma^2) nμ,σ2
        概率密度函数:
f ( x ∣ μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 / ( 2 σ 2 ) , − ∞ < x < ∞ , − ∞ < μ < ∞ , σ > 0 (2-7) f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)},-\infty < x < \infty,-\infty < \mu < \infty,\sigma > 0\tag{2-7} f(xμ,σ2)=2π σ1e(xμ)2/(2σ2)<x<<μ<σ>0(2-7)
        期望和方差:
E X = μ , D X = σ 2 (2-8) EX = \mu,DX= \sigma^2\tag{2-8} EX=μDX=σ2(2-8)
        矩母函数:
M X ( t ) = e μ t + σ 2 t 2 / 2 (2-9) M_X(t) = e^{\mu t + \sigma^2 t^2/2}\tag{2-9} MX(t)=eμt+σ2t2/2(2-9)
        注:有时称为 Gauss(高斯)分布。

2.4 卡方分布

(1)卡方分布(p χ ν 2 \chi_{\nu}^{2} χν2
        概率密度函数:
f ( x ∣ ν ) = 1 Γ ( ν / 2 ) 2 ν / 2 x ( ν − 2 ) / 2 e − x / 2 ; 0 ≤ x < ∞ ; ν = 1 , 2 , ⋯ (2-10) f(x | \nu) = \frac{1}{\Gamma(\nu/2)2^{\nu/2}}x^{(\nu-2)/2}e^{-x/2};0 \leq x < \infty;\nu=1, 2, \cdots\tag{2-10} f(xν)=Γ(ν/2)2ν/21x(ν2)/2ex/20x<ν=1,2,(2-10)
        期望和方差:
E X = ν , D X = 2 ν (2-11) EX = \nu,DX = 2\nu\tag{2-11} EX=νDX=2ν(2-11)
        矩母函数:
M X ( t ) = ( 1 1 − 2 t ) ν / 2 , t < 1 2 (2-12) M_X(t) = (\frac{1}{1-2t})^{\nu/2},t<\frac{1}{2}\tag{2-12} MX(t)=(12t1)ν/2t<21(2-12)
        注:伽玛分布的特殊情况。

2.5 t分布

        概率密度函数:
f ( x ∣ ν ) = Γ ( ν + 1 2 ) Γ ( ν 2 ) 1 ν π 1 ( 1 + ( x 2 ν ) ) ( ν + 1 ) / 2 , − ∞ < x < ∞ , ν = 1 , ⋯ (2-13) f(x | \nu) = \frac{\Gamma(\frac{\nu + 1}{2})}{\Gamma(\frac{\nu}{2})} \frac{1}{\sqrt{\nu \pi}} \frac{1}{(1+(\frac{x^2}{\nu}))^{(\nu +1)/2}},-\infty < x < \infty,\nu =1, \cdots\tag{2-13} f(xν)=Γ(2ν)Γ(2ν+1)νπ 1(1+(νx2))(ν+1)/21<x<ν=1,(2-13)
        期望和方差:
E X = 0 , ν > 1 , D X = ν ν − 2 , ν > 2 (2-14) EX = 0, \nu > 1,DX = \frac{\nu}{\nu - 2}, \nu > 2\tag{2-14} EX=0,ν>1DX=ν2ν,ν>2(2-14)
        矩:
E X n = { Γ ( n + 1 2 ) Γ ( ν − n 2 ) π Γ ( ν 2 ) ν n / 2 , 如果  n < ν  且为偶数 , 0 , 如果  n < ν  且为奇数 (2-15) EX^n = \begin{cases} \frac{\Gamma(\frac{n + 1}{2}) \Gamma(\frac{\nu - n}{2})}{\sqrt \pi \Gamma(\frac{\nu}{2})} \nu^{n/2},& \text{如果 $n < \nu$ 且为偶数},\\ 0,& \text{如果 $n< \nu$ 且为奇数} \end{cases}\tag{2-15} EXn={π Γ(2ν)Γ(2n+1)Γ(2νn)νn/20如果 n<ν 且为偶数如果 n<ν 且为奇数(2-15)
        注:矩母函数不存在,与 F 分布有关系。( F 1 , ν = t ν 2 F_{1, \nu} = t_{\nu}^{2} F1,ν=tν2

2.6 F分布

        概率密度函数:
f ( x ∣ ν 1 , ν 2 ) = Γ ( ν 1 + ν 2 2 ) Γ ( ν 1 2 ) Γ ( ν 2 2 ) ( ν 1 ν 2 ) ν 1 / 2 x ( ν 1 − 2 ) / 2 ( 1 + ( ν 1 ν 2 ) x ) ( ν 1 + ν 2 ) / 2 ; 0 ≤ x < ∞ ; ν 1 , ν 2 = 1 , ⋯ (2-16) f(x | \nu_1, \nu_2) = \frac {\Gamma(\frac{\nu_1 + \nu_2}{2})}{\Gamma (\frac{\nu_1}{2})\Gamma (\frac{\nu_2}{2})}(\frac{\nu_1}{\nu_2})^{\nu_1 / 2}\frac{x^{(\nu_1-2)/2}}{(1+(\frac{\nu_1}{\nu_2})x)^{(\nu_1+\nu_2)/2}};0 \leq x < \infty;\nu_1, \nu_2 = 1, \cdots\tag{2-16} f(xν1,ν2)=Γ(2ν1)Γ(2ν2)Γ(2ν1+ν2)(ν2ν1)ν1/2(1+(ν2ν1)x)(ν1+ν2)/2x(ν12)/20x<ν1,ν2=1,(2-16)
        期望和方差:
E X = ν 2 ν 2 − 2 , ν 2 > 2 , D X = 2 ( ν 2 ν 2 − 2 ) 2 ( ν 1 + ν 2 − 2 ) ν 1 ( ν 2 − 4 ) , ν 2 > 4 (2-17) EX = \frac{\nu_2}{\nu_2-2},\nu_2 > 2, DX= 2(\frac{\nu_2}{\nu_2 - 2})^2 \frac{(\nu_1 + \nu_2 -2)}{\nu_1(\nu_2-4)},\nu_2 > 4\tag{2-17} EX=ν22ν2ν2>2,DX=2(ν22ν2)2ν1(ν24)(ν1+ν22)ν2>4(2-17)
        矩:
E X n = Γ ( ν 1 + 2 n 2 ) Γ ( ν 2 − 2 n 2 ) Γ ( ν 1 2 ) Γ ( ν 2 2 ) ( ν 2 ν 1 ) n ; n < ν 2 2 (2-18) EX^n = \frac {\Gamma(\frac{\nu_1 + 2n}{2}) {\Gamma (\frac{\nu_2 - 2n}{2})}} {\Gamma (\frac{\nu_1}{2}) \Gamma (\frac{\nu_2}{2})}(\frac{\nu_2}{\nu_1})^n;n < \frac{\nu_2}{2}\tag{2-18} EXn=Γ(2ν1)Γ(2ν2)Γ(2ν1+2n)Γ(2ν22n)(ν1ν2)nn<2ν2(2-18)

        注:矩母函数不存在,与卡方分布和 t 分布有关 ( F ν 1 , ν 2 = ( χ ν 1 2 ν 1 ) / ( χ ν 2 2 ν 2 ) ,其中两个 χ 2 变量独立; F 1 , ν = t ν 2 ) (F_{\nu_1, \nu_2} = (\frac{\chi_{\nu_1}^{2}}{\nu_1})/(\frac{\chi_{\nu_2}^{2}}{\nu_2}),其中两个 \chi^2 变量独立;F_{1, \nu} = t_{\nu}^{2}) (Fν1,ν2=(ν1χν12)/(ν2χν22),其中两个χ2变量独立;F1,ν=tν2)

2.7 贝塔分布

(1) B e t a ( α , β ) Beta(\alpha, \beta) Beta(α,β)
        概率密度函数:
f ( x ∣ α , β ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 , 0 ≤ x ≤ 1 , α > 0 , β > 0 (2-19) f(x | \alpha, \beta) = \frac{1}{\Beta(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1},0 \leq x \leq 1, \alpha > 0,\beta > 0\tag{2-19} f(xα,β)=B(α,β)1xα1(1x)β10x1α>0β>0(2-19)
        期望和方差:
E X = α α + β , D X = α β ( α + β ) 2 ( α + β + 1 ) (2-20) EX = \frac{\alpha}{\alpha + \beta},DX = \frac{\alpha \beta}{(\alpha+\beta)^2(\alpha + \beta +1)}\tag{2-20} EX=α+βαDX=(α+β)2(α+β+1)αβ(2-20)
        矩母函数:
M X ( t ) = 1 + ∑ k = 1 ∞ ( ∏ γ = 0 k − 1 α + γ α + β + γ ) t k k ! (2-21) M_X(t) = 1 + \sum_{k=1}^{\infty}(\prod_{\gamma=0}^{k-1}\frac{\alpha+\gamma}{\alpha+\beta+\gamma})\frac{t^k}{k!}\tag{2-21} MX(t)=1+k=1(γ=0k1α+β+γα+γ)k!tk(2-21)

        注:贝塔概率密度函数中的常数可以用伽马函数来表示:
B ( α , β ) = Γ ( α ) Γ ( β ) Γ ( α + β ) (2-22) \Beta(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}\tag{2-22} B(α,β)=Γ(α+β)Γ(α)Γ(β)(2-22)

2.8 Cauchy分布

(1) C a u c h y ( α , β ) Cauchy(\alpha, \beta) Cauchy(α,β)
        概率密度函数:
f ( x ∣ α , β ) = 1 π β [ 1 + ( x − α β ) 2 ] , − ∞ < x < ∞ , − ∞ < α < ∞ , β > 0 (2-23) f(x | \alpha, \beta) = \frac{1}{\pi \beta[1+(\frac{x-\alpha}{\beta})^2}],-\infty < x < \infty,-\infty < \alpha < \infty,\beta > 0\tag{2-23} f(xα,β)=πβ[1+(βxα)21]<x<<α<β>0(2-23)
        期望和方差:不存在
        矩母函数:不存在
        注:t 分布当自由度=1时的特殊情况。此外,如果 XY 独立同 n ( 0 , 1 ) n(0, 1) n(0,1)X/Y 是Cauchy 随机变量。

2.9 Laplace分布

        拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布
(1)DEXPO ( μ , σ ) (\mu, \sigma) (μ,σ)
        概率密度函数:
f ( x ∣ μ , σ ) = 1 2 σ e − ∣ x − μ ∣ σ , − ∞ < x < ∞ , − ∞ < μ < ∞ , σ > 0 (2-24) f(x | \mu, \sigma) = \frac{1}{2 \sigma}e^{-\frac{\lvert x-\mu\rvert }{\sigma}},-\infty < x < \infty,-\infty < \mu < \infty,\sigma > 0\tag{2-24} f(xμ,σ)=2σ1eσxμ<x<<μ<σ>0(2-24)
        期望和方差:
E X = μ , D X = 2 σ 2 (2-25) EX = \mu,DX = 2 \sigma^2\tag{2-25} EX=μDX=2σ2(2-25)
        矩母函数:
M X ( t ) = ( e μ t 1 − ( σ t ) 2 ) , ∣ t ∣ < 1 σ (2-26) M_X(t) = (\frac{e^{\mu t}}{1-(\sigma t)^2}),\lvert t \rvert <\frac{1}{\sigma}\tag{2-26} MX(t)=(1(σt)2eμt)t<σ1(2-26)
        注:也称为Laplace分布。

2.10 伽玛分布

(1) G a m m a ( α , β ) Gamma(\alpha, \beta) Gammaα,β
        概率密度函数:
f ( x ∣ α , β ) = 1 Γ ( α ) β α x α − 1 e − x / β ; 0 ≤ x < ∞ ; α , β > 0 (2-27) f(x | \alpha, \beta) = \frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta};0 \leq x < \infty;\alpha, \beta > 0\tag{2-27} f(xα,β)=Γ(α)βα1xα1ex/β0x<α,β>0(2-27)
        期望和方差:
E X = α β , D X = α β 2 (2-28) EX = \alpha\beta,DX = \alpha \beta^2\tag{2-28} EX=αβDX=αβ2(2-28)
        矩母函数:
M X ( t ) = ( 1 1 − β t ) α , t < 1 β (2-29) M_X(t)=(\frac{1}{1-\beta t})^\alpha,t < \frac{1}{\beta}\tag{2-29} MX(t)=(1βt1)αt<β1(2-29)
        注:有两个特殊情况:指数分布 ( α = 1 ) (\alpha = 1) (α=1) 和卡方分布 ( α = p / 2 , β = 2 ) (\alpha = p/2,\beta =2) (α=p/2β=2)。若 α = 3 / 2 , Y = X / β \alpha = 3/2,Y = \sqrt{X/ \beta} α=3/2Y=X/β 是 Maxwell 分布。Y=1/X 有逆伽玛分布。也与Poisson分布有关系。

若事件服从泊松分布,则事件第 i i i 次发生和第 i + k i+k i+k 次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数,所以指数分布是连续分布。

2.11 罗吉斯蒂克分布

(1) L o g i s t i c ( ν , β ) Logistic(\nu, \beta) Logisticν,β
        概率密度函数:
f ( x ∣ μ , β ) = 1 β e − ( x − μ ) / β [ 1 + e − ( x − μ ) / β ] 2 , − ∞ < x < ∞ , − ∞ < μ < ∞ , β > 0 (2-30) f(x | \mu, \beta) = \frac{1}{\beta}\frac{e^{-(x-\mu)/\beta}}{[1+e^{-(x-\mu)/\beta}]^2},-\infty < x < \infty,-\infty < \mu < \infty,\beta > 0\tag{2-30} f(xμ,β)=β1[1+e(xμ)/β]2e(xμ)/β<x<<μ<β>0(2-30)
        期望和方差:
E X = μ , D X = π 2 β 2 3 (2-31) EX = \mu,DX = \frac{\pi^2 \beta^2}{3}\tag{2-31} EX=μDX=3π2β2(2-31)
        矩母函数:
M X ( t ) = e μ t Γ ( 1 − β t ) Γ ( 1 + β t ) , ∣ t ∣ < 1 β (2-32) M_X(t) = e^{\mu t}\Gamma(1 - \beta t)\Gamma(1 + \beta t),\lvert t \rvert < \frac{1}{\beta}\tag{2-32} MX(t)=eμtΓ(1βt)Γ(1+βt)t<β1(2-32)
        注:分布函数为 f ( x ∣ μ , β ) = 1 1 + e − ( x − μ ) / β , − ∞ < x < ∞ , − ∞ < μ < ∞ , β > 0 f(x | \mu, \beta) = \frac{1}{1+e^{-(x-\mu)/\beta}},-\infty < x < \infty,-\infty < \mu < \infty,\beta > 0 f(xμ,β)=1+e(xμ)/β1<x<<μ<β>0

2.12 对数正态分布

(1) L N ( μ , σ 2 ) LN(\mu, \sigma^2) LNμ,σ2
        概率密度函数:
f ( x ∣ μ , σ 2 ) = 1 2 π σ e − ( log ⁡ x − μ ) 2 / ( 2 σ 2 ) x , 0 ≤ x < ∞ , − ∞ < μ < ∞ , σ > 0 (2-33) f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}\frac{e^{-(\log x-\mu)^2/(2\sigma^2)}}{x},0 \leq x < \infty,-\infty < \mu < \infty,\sigma > 0\tag{2-33} f(xμ,σ2)=2π σ1xe(logxμ)2/(2σ2)0x<<μ<σ>0(2-33)
        期望和方差:
E X = e μ + ( σ 2 / 2 ) , D X = e 2 ( μ + σ 2 ) − e 2 μ + σ 2 (2-34) EX = e^{\mu+(\sigma^2/2)},DX= e^{2(\mu + \sigma^2)} - e^{2\mu + \sigma^2}\tag{2-34} EX=eμ+(σ2/2)DX=e2(μ+σ2)e2μ+σ2(2-34)
        矩:
E X n = e n μ + n 2 σ 2 / 2 (2-35) EX^n = e^{n\mu + n^2\sigma^2/2}\tag{2-35} EXn=enμ+n2σ2/2(2-35)

2.13 Pareto分布

(1) P a r e t o ( α , β ) Pareto(\alpha, \beta) Paretoα,β
        概率密度函数:
f ( x ∣ α , β ) = β α β x β + 1 , α < x < ∞ , α > 0 , β > 0 (2-36) f(x | \alpha, \beta) = \frac{\beta\alpha^\beta}{x^{\beta+1}},\alpha < x < \infty,\alpha > 0,\beta > 0\tag{2-36} f(xα,β)=xβ+1βαβα<x<α>0β>0(2-36)
        期望和方差:
E X = β α β − 1 , β > 1 , D X = β α 2 ( β − 1 ) 2 ( β − 2 ) , β > 2 (2-37) EX = \frac{\beta\alpha}{\beta -1}, \beta > 1,DX = \frac{\beta\alpha^2}{(\beta - 1)^2(\beta - 2)}, \beta > 2\tag{2-37} EX=β1βα,β>1DX=(β1)2(β2)βα2,β>2(2-37)
        注:矩母函数不存在。

2.14 Weibull分布

(1) W e i b u l l ( α , β ) Weibull(\alpha, \beta) Weibullα,β
        概率密度函数:
f ( x ∣ α , β ) = α x α − 1 e − ( x β ) α β α , 0 ≤ x < ∞ , α > 0 , β > 0 (2-38) f(x | \alpha, \beta) = \frac{\alpha x^{\alpha - 1} e^{-(\frac{x}{\beta})^{\alpha}}}{\beta^\alpha},0 \leq x < \infty,\alpha > 0,\beta > 0\tag{2-38} f(xα,β)=βααxα1e(βx)α0x<α>0β>0(2-38)
        期望和方差:
E X = β Γ ( 1 + 1 α ) , D X = β 2 [ Γ ( 1 + 2 α ) − Γ 2 ( 1 + 1 α ) ] (2-39) EX = \beta \Gamma(1+\frac{1}{\alpha}),DX = \beta^2[\Gamma(1+ \frac{2}{\alpha})-{\Gamma^2(1+ \frac{1}{\alpha})}]\tag{2-39} EX=βΓ(1+α1)DX=β2[Γ(1+α2)Γ2(1+α1)](2-39)
        矩:
E X n = β n Γ ( 1 + n α ) (2-40) EX^n = \beta^{n}\Gamma(1 + \frac{n}{\alpha})\tag{2-40} EXn=βnΓ(1+αn)(2-40)
        注:仅当 α ≥ 1 \alpha \geq 1 α1 时矩母函数存在,其形式不大有用。一个特例是指数分布( α = 1 \alpha =1 α=1)。

2.15 逆高斯分布

        逆高斯分布(Inverse Gaussian distribution)是统计学中一种常用的分布。

        概率密度函数:
f ( x ∣ μ , λ ) = ( λ 2 π ) 1 / 2 x − 3 / 2 e − λ 2 x ( x − μ μ ) 2 (2-41) f(x | \mu, \lambda) = (\frac{\lambda}{2 \pi})^{1/2} x^{-3/2} e^{- \frac{\lambda}{2x} (\frac{x - \mu}{\mu})^2}\tag{2-41} f(xμ,λ)=(2πλ)1/2x3/2e2xλ(μxμ)2(2-41)
        期望和方差:
E X = μ , D X = μ 3 λ (2-42) EX = \mu,DX = \frac{\mu^3}{\lambda}\tag{2-42} EX=μDX=λμ3(2-42)

        注:Wald分布式 μ = λ = 1 \mu = \lambda =1 μ=λ=1 时逆高斯分布的特例。当 λ \lambda λ 趋近于无穷时,逆高斯分布逐渐趋近于高斯分布(即正态分布),逆高斯分布有多项类似于高斯分布的特性。“逆”可能容易引起混淆,其实它的含义是高斯分布描述的是在布朗运动中某一固定时刻的距离分布,而逆高斯分布描述的是到达固定距离所需时间的分布。

2.16 kumaraswamy

        分布概率密度函数:
f ( x ∣ a , b ) = a b x a − 1 ( 1 − x a ) b − 1 , 0 < x < 1 (2-43) f(x | a, b) = abx^{a-1}(1-x^a)^{b-1}, 0 < x <1\tag{2-43} f(xa,b)=abxa1(1xa)b1,0<x<1(2-43)
        期望和方差:
E X = b B ( 1 + 1 a , b ) , D X = b B ( 1 + 2 a , b ) − ( b B ( 1 + 1 a , b ) ) 2 (2-44) EX = bB(1 + \frac{1}{a}, b),DX = bB(1 + \frac{2}{a}, b) - (bB(1 + \frac{1}{a}, b))^2\tag{2-44} EX=bB(1+a1,b)DX=bB(1+a2,b)(bB(1+a1,b))2(2-44)

2.17 狄拉克分布

        狄拉克分布:假设所有的概率都集中在一点 μ \mu μ 上,则对应的概率密度函数为: p ( x ) = δ ( x − μ ) p(x)=\delta(x-\mu) p(x)=δ(xμ)。其中 δ ( ⋅ ) \delta(\cdot) δ() 为狄拉克函数,其性质为:
δ ( x ) = 0 , ∀ x ≠ 0 ∫ − ∞ + ∞ δ ( x ) d x = 1 (2-45) \delta(x)=0, \forall x\not=0\\ \int_{-\infty}^{+\infty}\delta(x)dx=1\tag{2-45} δ(x)=0,x=0+δ(x)dx=1(2-45)

        狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本 x → 1 , x → 2 , ⋯   , x → N \overrightarrow{x}_1, \overrightarrow{x}_2, \cdots, \overrightarrow{x}_N x 1,x 2,,x N,则定义经验分布函数:
p ^ ( x → ) = 1 N ∑ i = 1 N δ ( x → − x → i ) (2-46) \hat{p}(\overrightarrow{x})=\frac{1}{N}\sum_{i=1}^N\delta(\overrightarrow{x}-\overrightarrow{x}_i)\tag{2-46} p^(x )=N1i=1Nδ(x x i)(2-46)
        它就是对每个样本赋予了一个概率质量 1 N \frac{1}{N} N1

        对于离散型随机变量的经验分布,则经验分布函数就是multinoulli分布,它简单地等于训练集中的经验频率。

        经验分布的两个作用:

  • 通过查看训练集样本的经验分布,从而指定该训练集的样本采样的分布(保证采样之后的分布不失真)。
  • 经验分布就是使得训练数据的可能性最大化的概率密度函数。

2.18 多项式分布与狄里克雷分布

        多项式分布的质量密度函数:
M u l t ( m 1 , m 2 , ⋯   , m K ; μ , N ) = N ! m 1 ! m 2 ! ⋯ m K ! ∏ k = 1 K μ k m k (2-47) Mult(m_1, m_2, \cdots, m_K;\mu, N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_{k}^{m_k}\tag{2-47} Mult(m1,m2,,mK;μ,N)=m1!m2!mK!N!k=1Kμkmk(2-47)
        它是 ( μ 1 + μ 2 + ⋯ + μ K ) m 1 + m 2 + ⋯ + m K (\mu_1+\mu_2+\cdots+\mu_K)^{m_1+m_2+\cdots+m_K} (μ1+μ2++μK)m1+m2++mK 的多项式展开的形式。

        狄利克雷分布的概率密度函数:
D i r ( μ ^ ; α ^ ) = Γ ( ∑ k = 1 K α k ) ∑ k = 1 K Γ ( α k ) ∏ k = 1 K μ k α k − 1 (2-48) Dir(\hat{\mu};\hat{\alpha})=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1}\tag{2-48} Dir(μ^;α^)=k=1KΓ(αk)Γ(k=1Kαk)k=1Kμkαk1(2-48)
        可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:

  • 多项式分布是针对离散型随机变量,通过求和获取概率。
  • 狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。

2.19 混合概率分布

        混合概率分布:它组合了其他几个分量的分布来组成。

  • 在每次生成样本中,首先通过multinoulli分布来决定选用哪个分量,然后由该分量的分布函数来生成样本。
  • 其概率分布函数为:
    p ( x ) = ∑ i P ( c = i ) p ( x ∣ c = i ) (2-49) p(x)=\sum_iP(c=i)p(x|c=i)\tag{2-49} p(x)=iP(c=i)p(xc=i)(2-49)

        其中 p ( c = i ) p(c=i) p(c=i) 为一个multinoulli分布, c c c 的取值范围就是各分量的编号。

        前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子,此时 p ( c = i ) = 1 N p(c=i)=\frac{1}{N} p(c=i)=N1

        混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型,其中 p ( x ∣ c = i ) p(x|c=i) p(xc=i) 为高斯模型。每个分量都有对应的参数 ( μ → i , Σ i ) (\overrightarrow{\mu}_i, \Sigma_i) (μ i,Σi)

  • 有些混合高斯模型有更强的约束,如 ∀ i , Σ i = Σ \forall i, \Sigma_i=\Sigma i,Σi=Σ,更进一步还可以要求 Σ \Sigma Σ 为一个对角矩阵。
  • 混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。

        常见各种分布之间关系:



        上述各分布的Python代码实现:https://gitee.com/carpediem2021/math.git


参考

  1. 概率论与随机过程:http://www.huaxiaozhuan.com/数学基础/chapters/2_probability.html
  2. 基本的概率分布:https://docs.pymc.io/api/distributions/continuous.html
  3. 基本分布概率教程:https://github.com/graykode/distribution-is-all-you-need
  4. 单变量概率分布关系:http://www.math.wm.edu/~leemis/chart/UDR/UDR.html
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐