分享

SNP芯片分析

 wuhuaguo88l 2017-08-15

全基因组关联分析

      全基因组关联研究(Genome-wide association study,GWAS)是用来检测全基因组范围的遗传变异与可观测的性状之间的遗传关联的一种策略。基于高密度SNP(Single nucleotide polymorphism)标记的全基因组关联分析是近几年提出的复杂性状功能基因鉴定的新策略,其基本思想是基于连锁不平衡的原理,直接检测基因本身或基因附件的微小区域(<0.1 cM)的SNP标记与复杂性状表型信息的关联来实现目标性状或疾病的精细定位。

      GWAS的统计分析依据研究设计不同可采用不同的分析方法,目前常规的分析方法如下图所示:



技术路线



1. 数据质量控制
从质量方面对数据进行预处理,保证分析数据的准确性及结果可靠性。
  • 去除最小基因频率(Minor allele frequency, MAF)小于0.05的SNP位点
  • 去除检出率(Callrate)小于0.90的SNP位点
  • 去除哈温检测中P值小于10E-3的SNP位点
  • 去除检出率小于0.90的个体
  • 去除重复样本以及有一级亲缘关系的样本

2. 主成分分析
      主成分分析(Principal Component Analysis, PCA)的原理是找到数据方差最大的两个或者三个主成分(就是向量),将数据投影在这些主成分上,以达到降维的目的,通过图像上的点之间的相互距离来显示样品之间的相似度。考察样品的分布情况,验证实验设计的合理性,生物学重复样品的均一性(至少2 组数据)。
      将不同区域的样本进行PCA主成分分析,观察样本的聚类情况,探索地域差异与遗传差异对群体差异的影响。选择使用合适方法对关联分析的结果进行校正,减少人群分层带来的假阳性


3. 关联分析
针对不同的疾病分型或性状表型,采用合适的模型进行关联分析,分析方法包括:卡方检验、Fisher精确性检验、Cochran-Armitage趋势检验及传递不平衡检验。

Manhattan plot



QQ plot



4. 区域关联分析图
以4号染色体上的某一区段为例




5. 显著区段连锁不平衡分析
连锁不平衡(linkage disequilibrium)是指基因组中不同基因座间存在的非随机关联,即不同基因座的非等位基因间的非随机组合。LD Plot表示该基因所有snp的的连锁情况,各个方块的颜色由浅至深(白-红),表示连锁程度由低到高,深红色表示完全连锁。



6.显著位点注释
基于各类公共数据库(1000G、dbSNP、Cosmic、OMIM、KEGG/GO)对显著位点进行注释,综合注释信息及关联分析结果,在全基因组范围内筛选与疾病关联的位点,并计算这些位点等位基因频数,危险等位基因频数,OR值以及矫正后的p-value值。



家系连锁分析

      在家系中,位于同一条染色体上的两个基因座(QTL与遗传标记)在减数分裂的过程中会发生交换和重组,染色体上的两个基因组相距越远,发生重组的几率越高,两个基因座在一起传给后代的机会越少。因此,由标记与QTL间的重组率可估算出两者间的距离及连锁程度。家系连锁分析就是通过寻找与QTL紧密连锁的某一标记,从而确定该基因在染色体上的粗略定位。

      进行连锁分析所需要的条件包括,完整且正确的家系系谱信息及明确的患病与否,高密度的遗传标记。

LOD plot
      LOD(log odds score), 优势对数记分法.是根据遗传标志与致病基因的连锁,和在家系中的重组值,即两者之间的遗传距离,得出两者连锁的似然性比例。Lod值为0,意味着连锁假设与不连锁假设的可能性相等;Lod值为正值,有利于连锁;Lod值为负值,表示有一定重组率的连锁。显著的域值是﹢3和﹢2。Lod﹦﹢3时,连锁的概率为95%。




单倍型分析
单倍型又称单体型,是tagSNP的call在染色单体上的线性排列,单倍型分析的目的是看是否所有患病个体都继承了同样的单体型。在下图中,患病个体画框的里面单体型是一样的。





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多