一、离散型概率分布​

1. ​​伯努利分布(Bernoulli Distribution)​
  • ​定义​​:单次二分类试验(成功/失败)的概率分布。
  • ​概率质量函数(PMF)​​:
  • ​参数​​:
    • p:事件成功的概率(0≤p≤1)。
  • ​例子​​:
    • 抛一枚硬币,正面朝上(X=1)的概率为 p。
    • 点击率预测中用户是否点击广告(二分类)。
  • ​应用场景​​:
    • ​逻辑回归​​:输出伯努利分布的参数 p。
    • ​生成对抗网络(GAN)​​:判别器的二分类输出。

2. ​​二项分布(Binomial Distribution)​
  • ​定义​​:n 次独立伯努利试验中成功次数的分布。
  • ​PMF​​:
  • ​参数​​:
    • n:试验次数。
    • p:单次试验成功概率。
  • ​例子​​:
    • 抛10次硬币,正面出现3次的概率。
    • 批量生产中次品数量的统计。
  • ​应用场景​​:
    • ​A/B测试​​:比较两种策略的成功次数差异。
    • ​可靠性工程​​:系统在多次试验中的故障次数建模。

3. ​​多项分布(Multinomial Distribution)​
  • ​定义​​:多次独立试验中多个类别出现次数的分布。
  • ​PMF​​:
  • ​参数​​:
    • n:试验总次数。
    • pi​:第 i 类别的概率
  • ​例子​​:
    • 掷骰子10次,各点数出现的次数分布(六面骰对应 m=6)。
    • 文本分类中单词在不同类别中的出现次数。
  • ​应用场景​​:
    • ​朴素贝叶斯分类器​​:多类别文本分类。
    • ​主题模型(LDA)​​:文档-主题-单词的联合分布建模。

4. ​​泊松分布(Poisson Distribution)​
  • ​定义​​:固定时间/空间内随机事件发生次数的分布。
  • ​PMF​​:
  • ​参数​​:
    • λ:单位时间/空间内事件的平均发生次数(λ>0)。
  • ​例子​​:
    • 某路口一小时内通过的车辆数。
    • 网站每分钟的访问请求数。
  • ​应用场景​​:
    • ​推荐系统​​:用户行为(如点击、购买)的次数建模。
    • ​队列理论​​:服务系统中的到达率分析。

5. ​​几何分布(Geometric Distribution)​
  • ​定义​​:首次成功所需的伯努利试验次数的分布。
  • ​PMF​​:
  • ​参数​​:
    • p:单次试验成功概率。
  • ​例子​​:
    • 抛硬币直到第一次出现正面的次数。
    • 客服电话接通前需要拨打的次数。
  • ​应用场景​​:
    • ​生存分析​​:设备首次故障前的使用时间。
    • ​强化学习​​:首次获得奖励所需的步骤数。

6. ​​负二项分布(Negative Binomial Distribution)​
  • ​定义​​:第 r 次成功所需的试验次数的分布。
  • ​PMF​​:
  • ​参数​​:
    • r:目标成功次数。
    • p:单次试验成功概率。
  • ​例子​​:
    • 投篮直到第5次命中所需的投篮次数。
    • 病毒传播中感染第10人所需的接触次数。
  • ​应用场景​​:
    • ​流行病学​​:疾病传播的扩散速度建模。
    • ​保险业​​:索赔次数超过阈值的概率。

​二、连续型概率分布​

1. ​​均匀分布(Uniform Distribution)​
  • ​定义​​:区间内等概率取值的分布。
  • ​概率密度函数(PDF)​​:
  • ​参数​​:
    • a,b:区间的上下界(a<b)。
  • ​例子​​:
    • 从0到1随机选择一个数的概率密度。
    • 公交车的到站时间在某一时间段内的均匀分布。
  • ​应用场景​​:
    • ​随机初始化​​:神经网络权重的均匀初始化。
    • ​蒙特卡洛积分​​:均匀采样计算期望值。

2. ​​高斯分布(正态分布,Normal Distribution)​
  • ​定义​​:对称钟形曲线分布,由均值和方差决定。
  • ​PDF​​:
  • ​参数​​:
    • μ:均值(决定分布中心)。
    • σ:标准差(决定分布宽度,σ>0)。
  • ​例子​​:
    • 成年人的身高分布。
    • 测量误差的分布(如传感器噪声)。
  • ​应用场景​​:
    • ​线性回归​​:假设误差项服从高斯分布。
    • ​高斯过程​​:回归与贝叶斯优化中的先验分布。

3. ​​多元高斯分布(Multivariate Normal Distribution)​
  • ​定义​​:多维空间中的高斯分布。
  • ​PDF​​:
  • ​参数​​:
    • μ∈Rd:均值向量。
    • Σ∈Rd×d:协方差矩阵(对称正定)。
  • ​例子​​:
    • 二维空间中身高和体重的联合分布。
    • 股票收益率的联合波动。
  • ​应用场景​​:
    • ​高斯混合模型(GMM)​​:聚类与密度估计。
    • ​马氏距离​​:异常检测中的距离度量。

4. ​​指数分布(Exponential Distribution)​
  • ​定义​​:描述泊松过程中事件间隔时间的分布。
  • ​PDF​​:
  • ​参数​​:
    • λ:事件发生率(λ>0)。
  • ​例子​​:
    • 地震发生的间隔时间。
    • 客服电话的等待时间。
  • ​应用场景​​:
    • ​生存分析​​:设备故障间隔时间建模。
    • ​排队论​​:服务时间的分布假设。

5. ​​伽马分布(Gamma Distribution)​
  • ​定义​​:多个独立指数事件发生所需时间的分布。
  • ​PDF​​:
  • ​参数​​:
    • α:形状参数(α>0)。
    • β:速率参数(β>0)。
  • ​例子​​:
    • 第 α 次地震发生的时间。
    • 神经元的放电间隔时间。
  • ​应用场景​​:
    • ​贝叶斯推断​​:作为共轭先验用于泊松分布的参数估计。
    • ​可靠性工程​​:复杂系统的寿命建模。

6. ​​贝塔分布(Beta Distribution)​
  • ​定义​​:区间 [0,1] 上的概率分布,用于建模概率的概率。
  • ​PDF​​:
  • ​参数​​:
    • α,β:形状参数(α>0,β>0)。
    • :贝塔函数。
  • ​例子​​:
    • 广告点击率的概率分布(点击率本身是一个概率值)。
    • A/B测试中两种策略的成功率不确定性。
  • ​应用场景​​:
    • ​共轭先验​​:二项分布的贝叶斯更新(如点击率估计)。
    • ​概率校准​​:将分类器输出转化为精确概率。

7. ​​狄利克雷分布(Dirichlet Distribution)​
  • ​定义​​:多元分布的共轭先验,用于多项分布的参数建模。
  • ​PDF​​:
  • ​参数​​:
    • α=(α1​,…,αK​):浓度参数(αi​>0)。
    • :多元贝塔函数。
  • ​例子​​:
    • 文本中主题分布的分布(每个文档对应一个狄利克雷分布)。
    • 投票结果中各候选人得票率的分布。
  • ​应用场景​​:
    • ​主题模型(LDA)​​:文档-主题分布的建模。
    • ​贝叶斯多项回归​​:多类别分类的参数先验。

8. ​​拉普拉斯分布(Laplace Distribution)​
  • ​定义​​:双指数分布,具有尖峰和厚尾特性。
  • ​PDF​​:
  • ​参数​​:
    • μ:位置参数(均值)。
    • b:尺度参数(b>0)。
  • ​例子​​:
    • 金融资产收益率的尖峰厚尾分布。
    • 信号处理中的噪声分布。
  • ​应用场景​​:
    • ​L1正则化(LASSO)​​:损失函数中的绝对值惩罚项对应拉普拉斯先验。
    • ​鲁棒回归​​:对异常值不敏感的回归模型。

9. ​​卡方分布(Chi-Squared Distribution)​
  • ​定义​​:独立标准正态变量平方和的分布。
  • ​PDF​​:
  • ​参数​​:
    • k:自由度(k>0)。
  • ​例子​​:
    • 样本方差乘以自由度除以总体方差的分布
    • 分类变量的卡方检验统计量。
  • ​应用场景​​:
    • ​假设检验​​:检验方差是否相等或独立性。
    • ​置信区间​​:方差估计的区间计算。

10. ​​学生t分布(Student’s t-Distribution)​
  • ​定义​​:小样本下估计正态总体均值的分布,尾部比正态分布更厚。
  • ​PDF​​:
  • ​参数​​:
    • ν:自由度(ν>0)。
  • ​例子​​:
    • 样本量较小时,样本均值的分布(如医学实验中的治疗效果估计)。
  • ​应用场景​​:
    • ​鲁棒统计​​:对异常值不敏感的均值估计。
    • ​贝叶斯推断​​:作为正态分布的稳健替代先验。

​三、联合分布与条件分布​

1. ​​联合分布(Joint Distribution)​
  • ​定义​​:多个随机变量共同取值的概率分布。
  • ​例子​​:
    • 身高(X)和体重(Y)的联合分布 P(X,Y)。
  • ​应用场景​​:
    • ​概率图模型​​:变量间的依赖关系建模。
2. ​​条件分布(Conditional Distribution)​
  • ​定义​​:给定其他变量取值时某变量的分布。
  • ​公式​​:
  • ​应用场景​​:
    • ​贝叶斯网络​​:因果推理中的条件概率更新。
3. ​​边缘分布(Marginal Distribution)​
  • ​定义​​:联合分布中某一变量的单独分布。
  • ​公式​​:
  • ​应用场景​​:
    • ​特征选择​​:分析单个变量的统计特性。

​四、不常见但重要的分布​

1. ​​泊松二项分布(Poisson Binomial Distribution)​
  • ​定义​​:非独立伯努利试验的成功次数分布(各次试验成功概率不同)。
  • ​应用场景​​:
    • ​信用评分模型​​:不同客户的违约概率差异较大时的违约次数建模。
2. ​​对数正态分布(Log-Normal Distribution)​
  • ​定义​​:随机变量的对数服从正态分布。
  • ​PDF​​:
  • ​例子​​:
    • 股票价格的长期波动。
    • 城市人口规模分布。
  • ​应用场景​​:
    • ​金融工程​​:资产价格建模(Black-Scholes模型)。
3. ​​威布尔分布(Weibull Distribution)​
  • ​定义​​:描述设备寿命或故障时间的分布。
  • ​PDF​​:
  • ​参数​​:
    • k:形状参数(k>0)。
    • λ:尺度参数(λ>0)。
  • ​应用场景​​:
    • ​生存分析​​:设备寿命或客户流失时间建模。

​五、分布与模型的对应关系​

​分布名称​ ​应用模型与场景​
伯努利分布 逻辑回归、生成对抗网络(判别器输出)
二项分布 A/B测试、可靠性工程中的成功次数统计
多项分布 朴素贝叶斯分类、主题模型(LDA)
泊松分布 推荐系统的用户行为建模、队列理论中的到达率分析
高斯分布 线性回归、高斯过程、异常检测
多元高斯分布 高斯混合模型(GMM)、马氏距离计算
贝塔分布 贝叶斯A/B测试、概率校准
狄利克雷分布 主题模型(LDA)、贝叶斯多项回归
拉普拉斯分布 L1正则化(LASSO)、鲁棒回归
卡方分布 假设检验(独立性检验、方差齐性检验)
学生t分布 小样本均值估计、贝叶斯稳健回归
伽马分布 泊松过程的贝叶斯推断、可靠性工程中的寿命建模
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐