大家好,我是邓飞,虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。并且通过R语言模拟数据,验证了这个结论,纸上得来终觉浅,绝知此事要躬行! 同时,根据公式推导,可以更贴切的知道BLUP育种值的含义,我们为何要根据育种值进行选择,选择后会发生什么,加性效应,显性效应对于单位点SNP如何计算,对于PRS,MAS,GS的理解都是非常重要的。 概念介绍加性效应(Additive Effect)加性效应描述了每个等位基因对表型性状的独立贡献。假设我们有两个等位基因A和a,基因型可以是AA、Aa或者aa,加性效应通常表示为(\alpha)。
加性效应认为每个A等位基因独立增加(\alpha)个单位的表型值。这意味着Aa个体的表型值是接近加性效应的两倍。 显性效应(Dominance Effect)显性效应描述了杂合子(如Aa)的表型值相对于两种纯合子的偏离情况。
显性效应衡量的是Aa是否表现出比两个纯合子的中间更接近某一纯合子(显性)或者中间偏离程度。 替换效应(Substitution Effect)替换效应关注的是一个等位基因替换另一个等位基因对性状的影响,也称为代换效应。
三个概念的区分
理解这些效应可以帮助解析基因对数量性状的不同影响,从而在育种和进化研究中应用这些知识。 1. GWAS中的effect这里,GWAS中的回归系数,effect,beta,都是一个意思。 因为GWAS分析中,单点检测,类似回归分析,effect就是SNP回归系数beta,p值就是SNP的P-value。 比如数据:用R语言拟合模型:
这里的M7位点,effect是1.394,p值是0.29。下图用GWAS的GLM模型展示,两者结果是一致的。 2. 数量遗传学中的替换效应2.1 加性效应和显性效应首先,先看一下加性效应和显性效应的定义: 举个栗子比如:
那么:
2.2 期望和方差假定一个位点的次等位基因频率是p,主等位基因频率是q,而且该位点满足哈温平衡,所以: 整体均值为:整体方差: 2.3 等位基因平均效应❝ 2.4 替换效应(substitution effect)❝ 「基因平均效应和替换效应的关系:」 ❝ 3. 用基因型数据计算3.1 基因频率首先,看一下基因频率:
也可以根据AA,AT,TT的个数,手动计算: 3.2 加性效应和显性效应这里,用AA,AT,TT平均表型值计算: 「计算的结果:」
3.3 基因效应和替换效应注意,如果要手动计算的替换效应和回归分析计算的回归系数,需要满足哈温平衡。这里位点不符合哈温平衡,所以手动计算的替换效应和回归分析的beta值有差别。 4. 替换效应和回归系数等价推导下面介绍一下相关的推导。 把SNP的分型转为0-1-2的X变量,将表型数据为Y变量,那么回归系数的公式可以推导为替换效应的组成。 上图中,X是编码为0-1-2的SNP,Y是每个基因型0-1-2的表型值。比如: 如果我们对value为Y,SNP为x,计算回归系数:b = cov(X,Y)/var(X),就可以推导为:b = alpha,截距为:u - 2palpha 结论:回归系数就是替换效应。 5 模拟数据演示计算公式: 5.1 小数据演示我们模拟一个符合哈温平衡的位点,p=0.5,q=0.5,n=12个:计算不同分型的平均数:
那么加性效应和显性效应为:
替换效应为:a + (p - q)d = 10.15 截距为:u = 19.5 截距 = 19.5 - 20.5*10.15 = 9.35 可以看出,计算出的回归系数为:10.16,截距为9.33,结果基本一致。 5.2 大数据演示
回归计算的回归系数和截距为:
手动计算基因的替换效应:
5. 替换效应和育种值一个个体的育种值,就是他的后代群体,相对于整个亲本群体的差异。比如一个个体的育种值是0.5,那就是说他的后代会比群体的整体平均值高0.3,如果育种值是0,那就是后代的平均值和群体一致。所以,我们要选择blup值大的个体,因为它的后代会高于群体的平均值。 因此,基因型A1A1、A1A2和A2A2的育种值分别为A11=2α1, A12=α1 +α2和A22=2α2 。统一起来,各种基因型的育种值表示为:
注意,这里的alpha1是等位基因1的平均效应,alpha2是等位基因2的平均效应。 所以,这里,就可以理解为数量遗传学的替换效应就和GWAS分析的效应值联系到了一起。 根据上面的公式,我们就可以根据每个位点的效应值,计算单个SNP的育种值,加性效应和显性效应。 |
|