分享

数据不糊涂,先得懂分布

 萌小芊 2018-05-04

01


世界每天发生着确定事件、随机事件与模糊事件,对于随机事件,人们希望通过研究样本,来了解总体。

 

样本的选取有简单随机、系统抽样、整群抽样与分层抽样等手段。对于每个观察,它的属性为变量,通过测量得到每个变量的值。变量类型有称名变量、顺序变量与数量变量。所测的值,需要客观、稳定与合理,而测量与加工过程中,可能会产生随机误差与系统误差。



所以,数据管理时,需先明确研究需求,再收集、录入、矫正与检测数据,以备数据操作。相关文件还需备份与分类。常规数据管理系统包括电子制表软件,商业数据管理系统以及公共领域系统。


02


某个事件的概率,即事件总体中的相对发生频率,其变量类型分离散与连续两种。

 

通过样本推断总体,包括参数估计与非参数估计,而前面提到的以样本的频率估计总体的概率,属于前者。

 

参数估计的方法大体包括矩估计法、最小二乘法与极大似然法。而极大似然法还包括极大验后法、最小风险法和极小化极大熵法。假设概率密度形式已知,估计的参数包括平均数、方差与区间,通过极大似然或贝叶斯等方法。如果概率密度未知,则需非参数估计,通常包括直方图、核密度估计与K近邻的方法,通过训练已有数据,逼近密度分布。



对于随机交配的二倍体群体,假定世代不重叠,则已知等位基因频率,通过公式能够计算群体中等位基因拷贝数。而Y染色体单倍型由于较少同源重组等优势,常用于个体司法鉴定。如果已知数据库,如何确定个体,人们发展了不同的方式,如:Brenner计数法、置信区间法、频率调查法、无限等位基因模型、平均匹配概率、卡帕法,t 模型与离散拉普拉斯模型。

 

早期古典概率源于赌博,基于赌博,衍生出二项分布、正态分布等概率密度分布,车站乘客数量涉及泊松分布,电子元件寿命涉及指数分布,声音识别与图像压缩等均涉及拉普拉斯分布。


 

通过离散拉普拉斯分布能够模拟Y染色体STR单倍型频率,目前已有多款相关软件,如disclap、fwsim、disclapmix等。相关方法不光应用于司法鉴定,还借鉴于微生物群体进化等研究中。


03


以微生物为例,西班牙科学家发现,在无菌培养下,大肠杆菌直径的对数服从偏态拉普拉斯分布。由于更大粒度意味更高核糖体密度,通过分析尺度的分布,能够区分混合群落的细胞异质性。


所有数学手段,都是为了更好地理解世界。在实际生活中,找到数据符合的分布尤为重要。


已知某个数据集,通过直方图形状,可以初步猜测分布类型,通过R语言中的fitdistr命令,可以拟合特定分布的参数,而通过ks.test与shapiro.test则可对分布进行假设检验。其中,shapiro只能检测正态分布,而ks可以检测均一、正态、伽马等多种分布。



针对上图的具体代码:

test=rnorm(n = 100,mean = 0,sd = 1)

hist(test,freq=FALSE,col = 'light blue')

my_norm <- fitdistr(test,="">

lines(density(test),col='red')


检验是否符合某种分布:

从图中可以看出,p值在假设均一分布时极小,而在正态分布时较大,提醒满足后者


随着数据的增长,带来信息的同时,也带来困惑。希望未来的世界,每个人都能通过统计,实现认识的跨越。


参考文献

1.2013 - arXiv - Andersen, Morling

2.2015 - BMC Bioinformatics - Snipen, Liland

3.2017 - Statistica Neerlandica - Cereda

4.2015 - Elsevier Ireland Ltd - Llull, Borosky, Salas

5.2005 - Microbiology - Vives-rego, Julia


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多