概率论是集中研究概率及随机现象的数学分支,主要研究对象为随机事件、随机变量以及随机过程。概率分布,是指用于表述随机变量取值的概率规律,它大致分为离散概率分布和连续概率分布两种。在本文中,我们将介绍以下12种分布:
伯努利分布
符号 : X ~ 二项式(p) 参数:p 是成功试验(0<=p<=1) PMF = p(k) = CDF = p(X<=k) = 平均值 = p 方差 = 伯努利分布的 PMF 伯努利分布的 CDF 二项分布
假设我有 n 个硬币。我在 n 次投掷中得到 k 个正面的概率是多少? 任何分布为二项分布的条件-
符号 : X ~ Bl(p,n) 参数:n为试验次数, p 是成功试验 PMF = p(k) = CDF = p(X<=k) = 平均值 = 方差 = 二项分布的 PMF 二项分布的CDF 均匀分布均匀分布是每个值(在域中或区间中)出现的概率相同的分布。 均匀分布的类型 根据分布中使用的随机变量的类型,有两种类型的均匀分布。他们是
离散均匀分布
符号:X ~ Unif(a,b) 或 U(a,b) 参数:其中a和b是整数,b>a 可能结果的数量表示为“n”并且(即,n=b-a+1) PMF = p(X=k) = CDF = p(X=<k) = 平均值= 方差 = 离散均匀分布的 PMF 离散均匀分布的 CDF 连续均匀分布
符号:X ~ Unif(a,b) 或 U(a,b) 参数:其中a和b是整数,b>a 可能结果的数量表示为“n”并且(即,n=b-a+1) PDF = p(X=k) = CDF = p(X=<k) = 平均值= 方差 = 连续均匀分布的 PDF 连续均匀分布的 CDF 泊松分布
假设
假设 λ=10,这意味着我们平均每小时接到 10 个电话。现在我们要计算你在一小时内接到 10、9、11、15、6 个电话的概率是多少? 符号 : X ~ poisson(λ) 参数:λ,即任何事件发生的速率。 PMF = p(X=k) = CDF = p(X=<k) = 平均值= 方差 = 泊松分布的 PMF 泊松分布的 CDF 泊松分布的另一个性质是 如果 X1 ~ poisson(λ1) 和 X2 ~ poisson(λ2) (两者都是独立的) 然后 (X1 和 X 2) ~ 泊松(λ1 + λ2) 指数分布
假设
符号 : X ~ 指数(λ) 参数:λ,它是任何事件发生的速率。 PDF = CDF = 平均值= 方差 = 指数分布的 PDF 指数分布的 CDF 指数分布的无记忆性 指数分布的随机变量T服从关系 指数分布是无内存分布。事件至少在 t 时间内发生的概率与等待 s 时间后发生的概率相同。 Pr(X > s+t | X > s) = Pr(X > t) Pr(事件在 40 分钟内发生|等待 30 分钟)= Pr(事件在 10 分钟内发生) 正态/高斯分布(μ, p2)
当我们从未知分布的群体中抽取大量样本时,它遵循正态分布。 X ~ 正常(m, p2) 其中 μ 是平均值 σ2 是标准差 PDF = f(x) = CDF = F(x) = 平均值 = E(x) = 方差 = Var(x) = 正态分布的 PDF 正态分布的 CDF 经验法则或 68–95–99.7 法则 68-95-99.7 规则或经验规则用于记住正态分布的区间估计值中的百分比。 68%、95%和99.7%的数值分别位于两侧第一、第二和第三标准差的区间内。 例如,我们有一个均值为 150,标准差为 25 的正态分布,则 1σ = 25;2σ = 50, 3σ = 75 68% 的值位于区间 [150–25, 150+25] 中(即 [125,175]) 95% 的值位于区间 [150–50, 150+50] 中(即 [150,200]) 99.7% 的值位于区间 [150–75, 150+75](即 [75,125]) 注意:正态分布的平均值始终不是必须为 0。它也可以是非零值。但是,一旦将值标准化,则均值变为 0,标准差变为 1。 标准正态变量 (Z) 和标准化 标准正态分布是均值为零,标准差为 1 的正态分布。 标准正态变量 — Z 分数是一种数值度量,用于描述一个值与一组值的平均值的关系。 如果我们有一个均值为 0、标准差为 1 且服从正态分布的随机变量“Z”,则“Z”称为标准正态变量。表示为 Z~N(0,1) 标准化是将具有均值“μ”和方差“σ 2”的给定分布转换为均值为 0、标准差为 1 的相同类型分布的过程。(即使方差也为 1) 注意:标准化只是将给定的值分布转换为平均值 = 0 和标准差 = 1 的新尺度。分布的性质根本不会改变。(无论分布是高斯还是非高斯) 对数正态分布:lognormal(μ, σ2 )
X ~ LogNormal(m, p2) 其中 μ 是平均值 σ2 是标准差 PDF = f(x) = CDF = F(x) = 平均值 = E(x) = 方差 = Var(x) = 如果 X ~ LogNormal(m, p2) 然后 y = log(x) 并且 y 服从正态分布(自然对数) 对数正态分布的 PDF 对数正态分布的 CDF 对数正态分布始终呈正偏态。没有机会被负面扭曲。每个对数正态分布都是偏态分布,但每个偏态分布都不是对数正态分布。 对于对数正态分布,我们不能应用 68-95-99.7 规则,因为它不是高斯分布。但是一旦我们对一个对数正态分布变量应用一个自然对数,那么转换后的特征遵循正态分布,那么 68-95-99.7 规则就适用了。 如果“X”服从对数正态分布,则 Y=ln(X) 服从正态分布。Y~N(μ, σ) 根据正态分布, 68% 的数据位于 [m-s, m+s] 95% 的数据位于 [μ-2σ, μ+2σ] 99.7% 的数据位于 [μ-3σ, μ+3σ] 因为 Y=ln(X) ⇒ X = eY 所以 'X' 中 68% 的数据位于 [eμ-σ, eμ+σ] 所以 'X' 中 95% 的数据位于 [eμ-2σ, eμ-2σ] 所以 'X' 中 99.7% 的数据位于 [eμ-3σ, eμ-3σ] 这里 μ,σ 是 'Y' 的参数 如何检查给定分布是否为对数正态分布 让'X'是给定的输入分布。让我们计算“X”值的自然对数并将它们表示为“Y”。(即,Y = ln(X))。 用 QQ 图检查 Y 是否正常。QQ 图在“Y”轴上具有“Y”值,在“X”轴上具有随机生成的正态分布 N(μ', σ2 )。如果绘图看起来像一条直线,那么我们可以确认“Y”是正态分布的,“X”是对数正态分布的。 对数正态分布的应用
为什么对数正态分布的峰值不被视为均值? 正态/高斯分布是对称的,50% 的值位于一侧 其余 50% 的值位于另一侧。所以我们可以说高斯分布的最高峰是它的平均值。 但是在对数正态分布的情况下,我们不能保证平均值是 因为曲线是不对称的,所以恰好出现在最高峰。 幂律分布幂律是两个量之间的函数关系,其中一个量的相对变化导致另一个量成比例的相对变化,与这些量的初始大小无关。(即,一个数量随着另一个数量的力量而变化)。 幂律遵循 80-20 规则。在给定的分布“X”中,80% 的分布值低于 20% 的“X”值。当分布遵循幂律时,该分布称为帕累托分布。幂律函数有一条长尾。帕累托分布适用于连续随机变量。 帕累托分布任何遵循幂律分布的分布称为帕累托分布。 帕累托分布的参数是
示例——80% 的社会财富由 20% 的人持有。 帕累托分布 PDF 帕累托分布的 CDF 从 PDF 图中,我们观察到随着 'α' 值不断减小,尾部变得不那么粗。对于 α → 无穷大,PDF 变为 delta 函数(即,具有单个值的垂直直线)。这里这个 delta 函数只在一个点有一个值,而在其他点上,它的值是 0。这样的函数称为 Dirac Delta 函数。 帕累托和对数正态分布的共同点是“两种分布都有少量较大的值和大量的较小值。但主要区别在于帕累托分布没有增加的 PDF。 如何检查两个给定变量是否遵循幂律? 检查两个给定变量是否遵循幂律的一种方法是使用对数对数图。如果 'X' 和 'Y' 是两个给定变量,那么如果我们用 Log(X) 在 X 轴上,Log(Y) 在 Y 轴上做一个绘图,并且绘图收敛到一条直线,如图所示如图,那么我们可以说分布有幂律尾。(即,两个变量都遵循幂律)对数图上的直线是幂律的有力证据,直线的斜率对应于幂律指数。 如果发现分布是帕累托,可以应用 box-cox 变换将其转换为正态/高斯分布。 卡方分布若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution): 。 分布在数理统计中具有重要意义。 分布是由阿贝(Abbe)于1863年首先提出的,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡·皮尔逊(C K.Pearson)分别于1875年和1900年推导出来,是统计学中的一个非常有用的著名分布。 卡方分布是由正态分布构造而成的一个新的分布,当自由度 很大时,卡方分布近似为正态分布。 对于任意正整数x, 自由度为u的卡方分布是一个随机变量X的机率分布。 概率密度函数卡方分布的概率密度函数为: 其中 。这里Γ代表Gamma函数。 概率密度函数 累积分布函数卡方分布的累积分布函数为: 其中γ(k,z)为不完全Γ函数 在大多数涉及卡方分布的书中都会提供它的累积分布函数的对照表。此外许多表格计算软件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函数。 自由度为k的卡方变量的平均值是k,方差是2k。 卡方分布是伽玛分布的一个特例,它的熵为: 其中 是双伽瑪函數。 累积分布函数 韦伯分布韦布尔分布,即韦伯分布(Weibull distribution),又称韦氏分布或威布尔分布,是可靠性分析和寿命检验的理论基础。 威布尔分布在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用于各种寿命试验的数据处理。 从概率论和统计学角度看,Weibull Distribution是连续性的概率分布,其概率密度为: 其中,x是随机变量,λ>0是比例参数(scale parameter),k>0是形状参数(shape parameter)。显然,它的累积分布函数是扩展的指数分布函数,而且,Weibull distribution与很多分布都有关系。如,当k=1,它是指数分布;k=2且时,是Rayleigh distribution(瑞利分布)。 均值{\displaystyle E=\lambda \Gamma \left(1+{\frac {1}{k}}\right)\,}其中,Г是伽马(gamma)函数。 方差{\displaystyle Var=\lambda ^{2}\left[\Gamma \left(1+{\frac {2}{k}}\right)-\Gamma \left(1+{\frac {1}{k}}\right)^{2}\right],} 矩函数偏度峰度概率密度函数 累积分布函数曲线 学生 t 分布在概率论和统计学中,学生t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。 学生t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。 t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。 由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。 假设X服从标准正态分布N(0,1),Y服从 分布,那么 的分布称为自由度为n的t分布,记为 。 分布密度函数 , 其中,Gam(x)为伽马函数。 |
|