全基因组关联分析 GWAS的统计分析依据研究设计不同可采用不同的分析方法,目前常规的分析方法如下图所示: 技术路线 从质量方面对数据进行预处理,保证分析数据的准确性及结果可靠性。
2. 主成分分析 主成分分析(Principal Component Analysis, PCA)的原理是找到数据方差最大的两个或者三个主成分(就是向量),将数据投影在这些主成分上,以达到降维的目的,通过图像上的点之间的相互距离来显示样品之间的相似度。考察样品的分布情况,验证实验设计的合理性,生物学重复样品的均一性(至少2 组数据)。 将不同区域的样本进行PCA主成分分析,观察样本的聚类情况,探索地域差异与遗传差异对群体差异的影响。选择使用合适方法对关联分析的结果进行校正,减少人群分层带来的假阳性 3. 关联分析 针对不同的疾病分型或性状表型,采用合适的模型进行关联分析,分析方法包括:卡方检验、Fisher精确性检验、Cochran-Armitage趋势检验及传递不平衡检验。 Manhattan plot 4. 区域关联分析图 以4号染色体上的某一区段为例 5. 显著区段连锁不平衡分析 连锁不平衡(linkage disequilibrium)是指基因组中不同基因座间存在的非随机关联,即不同基因座的非等位基因间的非随机组合。LD Plot表示该基因所有snp的的连锁情况,各个方块的颜色由浅至深(白-红),表示连锁程度由低到高,深红色表示完全连锁。 6.显著位点注释 基于各类公共数据库(1000G、dbSNP、Cosmic、OMIM、KEGG/GO)对显著位点进行注释,综合注释信息及关联分析结果,在全基因组范围内筛选与疾病关联的位点,并计算这些位点等位基因频数,危险等位基因频数,OR值以及矫正后的p-value值。 家系连锁分析 在家系中,位于同一条染色体上的两个基因座(QTL与遗传标记)在减数分裂的过程中会发生交换和重组,染色体上的两个基因组相距越远,发生重组的几率越高,两个基因座在一起传给后代的机会越少。因此,由标记与QTL间的重组率可估算出两者间的距离及连锁程度。家系连锁分析就是通过寻找与QTL紧密连锁的某一标记,从而确定该基因在染色体上的粗略定位。 进行连锁分析所需要的条件包括,完整且正确的家系系谱信息及明确的患病与否,高密度的遗传标记。 单倍型分析 单倍型又称单体型,是tagSNP的call在染色单体上的线性排列,单倍型分析的目的是看是否所有患病个体都继承了同样的单体型。在下图中,患病个体画框的里面单体型是一样的。
|
|
来自: wuhuaguo88l > 《生物信息》