如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点,那么称之为连续型随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。 连续型随机变量X无法像离散型随机变量一样,给出其取每一个点时的概率,那么换一种思路,来研究随机变量落入一个区间 的概率 ,当区间 接近无穷小时,这时我们使用概率密度来表示概率值。什么是概率密度?假设有一组零件,由于各种因素的影响,其长度是各不相同的。具体数值如下。[171.671,172.04,171.67,172.40,172.70,172.164,171.71,172.68,172.13,171.97,172.266,171.81,172.15,172.45,172.20,172.600,172.24,171.39,172.17,171.2] 按前面离散型随机变量的思路,要将数据分组,对应每个组计算出其相应的概率值,并绘制概率分布直方图,如下图所示。图中的横坐标是随机变量值,纵坐标是随机变量落入该值范围内的概率。直方图的边缘看起来有点粗糙,但当我们把样本数据和分组数同时增加时,轮廓就会越来越细致,接近于如图所示的曲线,这条曲线对应的函数就称为概率密度函数。由此思路,得到概率密度的数学描述如下。考虑连续随机变量 落入区间区间 的概率,由概率分布函数 的定义可知 ,令 ,则设概率密度 反映出概率在 点处的密集程度,可以设想一根的质量不均匀的金属杆,总质量为1,概率密度相当于杆上各点处的质量密度。从上式中可得结论:若 在处连续,则概率密度函数 是分布函数 的导函数。设 为连续型随机变量, 在任意区间(a,b]上的概率可以表示为:下图形象描绘出概率密度函数 和概率 之间的关系。概率 被看成曲线下的面积,用数学公式描述就是一个积分形式。假设某零件误差量在区间(-4,4)均匀分布,计算误差量为1~3的概率。解:设随机抽取一个零件的误差量为X,随机变量X在区间(-4,4)上均匀分布,X落在该区间任意点的概率相同,即概率密度为一常量。在Python中输出正态分布概率密度函数和对应的概率分布函数。下面代码模拟实现了一个均值 为0和方差σ2为1的正态分布。import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as statsdef test_norm_pmf():# 正态分布是一种连续分布,其函数可以在实线上的任何地方取值# 正态分布由两个参数描述:分布的平均值μ和方差σ2 mu = 0 # meansigma = 1#standard deviationx = np.arange(-5,5,0.1) #生成随机数x#得到对应的概率值yy = (1/(np.sqrt(2*np.pi*sigma*sigma)))*np.exp(-(((x-mu)**2)/(2*sigma*sigma)))fig, (ax0, ax1) = plt.subplots(ncols=2, figsize=(10, 5))ax0.plot(x, y)ax1.plot(x,stats.norm.cdf(x,0,1))ax0.set_title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu,sigma))ax0.set_xlabel('x')ax0.set_ylabel('Probability density', fontsize=15)ax1.set_title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu, sigma))ax1.set_xlabel('x')ax1.set_ylabel('Cumulative density', fontsize=15)fig.subplots_adjust(wspace=0.4)plt.show()test_norm_pmf() 自然界中许多随机指标都服从一种“中间高,两头低”的概率特性。例如,一门课程的考试成绩,人的身高、体重等。正态分布这种“钟形曲线”很好地反映了现实世界中的中间高、两头低的随机现象。
|