Ancient West African foragers in the context of African population history古基因组学研究终于到达了人类的摇篮:非洲 在正式理解文章之前,我们先理解一些群体遗传的分析方法:①PCA:主成分分析是我们所熟知的一种降维处理数据的方法,在群体遗传当中也是最常用的手段之一,应用的数据主要是高密度的SNP标记(其他的分子标记也可以,但较为少用),其思想是通过将多个线性相关的变量(这里的变量是SNP),通过一系列的矩阵转换,变成几个变异解释度大的线性无关变量,也就是特征向量。其作用是用来分析大群体(全部样本)中存在的小群体结构分层,为推断全体历史做基础工作,在进行全基因组关联分析的时候也可以将PCA得到的群体结构作为协变量进行校正。②分子系统发生推断(也就是我们常说的建进化树):系统发生是指生物或进化的历史,分子系统发生推断是根据现有的基因组数据来回溯推断某物种群体的进化历史的方法。在群体遗传中常利用的数据是分子标记数据(例如SNP数据),推断过程主要分为特征数据分析、系统发生树的构建以及结果的检验。当然这些现在都是通过软件实现的。建树是一个看上去比较简单但是却很需要经验的工作,因为要对推断的结果进行判断。③等位基因共享分析:是基因组学中研究目标个体的亲属获得相同等位基因的概率是否大于随机抽样个体的预期概率的方法。也可以反向验证满足这种概率关系的个体是否存在亲属关系。常用的软件就是本文用到的ADMIXTOOLS.那么下面正式来看一下本文的分析方法和对应的结果1.基因组数据来源与处理古DNA样本是在Shum Lake考古遗址中发现的,是来自四个孩子的,其中两个生活在8000年前,另外两个生活在3000年前。古DNA样本存在的岩骨在比利时皇家自然科学研究所的洁净室设备中处理,从岩骨中提取出DNA进行Illumina Hiseq测序。接下来使用比对软件BWA将测序数据比对到线粒体的参考基因组RSRS37和人类参考基因组hg19,进行一系列矫正后得到了120个SNPs。除了这4个主要的古基因组,文中分析还加入了人类起源数据组中来自喀麦隆人群的63个个体的SNP数据。这63个个体的人群组成是:Aghem(28)、Bafut(11)、Bakoko(1)、Bangwa(2)和Mbo(21)。
然后作者使用ADMIXTOOLS进行了f4-统计量分析来进行等位基因共享的统计,结果显示Shum Lake个体和来自中非西部的狩猎采集者的等位基因共享统计量最为显著。在通过PCA和等位基因共享分析之后,作者将样本确定为三个集群:(1) Mada and Fulani, (2) hunter-gatherers and (3) other populations who speak languages in the Niger–Congo family。