从最初的细胞到人类的黎明,速览跨越30亿年的演化历程 人类基因组简史
GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATA GCGTATATTAAAGTTGCTGCAGTTAAAAAG
尽管如天书一般难解,这段DNA(脱氧核糖核酸)序列绝不一般。在你的细胞、你家里的喵星人或汪星人、餐盘中的鱼、花园里的蜜蜂与蝴蝶,以及腹中的细菌里,都有它的身影。实际上,从深海沸腾的火山口到高空云层冻结的细菌,哪儿有生命,哪儿就有它。你甚至可以在如巨型病毒(mimiviruses)这样严格意义上算不上“活的”的东西里找到它。
这段序列之所以如此普遍,是因为它演化自所有生物的共同祖先。而且,由于它控制着一个至关重要的过程(详见后文),自诞生之日起就几乎没有改变过。换句话说,你身体里的部分DNA有着难以置信的30亿年的历史,到你这儿已未曾中断地传递了万亿代。
你还有一些DNA是全新的。你的基因组里大约有100个你的父母所没有的突变,小至一两个碱基字母的变化,大至一整段DNA的获得或遗失。
通过比较基因组,我们可以知道哪些DNA(片段)是“新”的,哪些是“旧”的。例如,对比你与你的兄妹的基因组可以令新增突变现身。比较人类与其他动物的基因组,则会揭露出那些更为久远的变化。
所以,我们的基因组不仅是造人的蓝图,还是活生生的历史记录。由于我们的基因组如此浩瀚 —— 由超过60亿个碱基字母组成 —— 写成书摞起来可达十米高 —— 它们极其详细地记录了我们的过去,使我们得以探寻从生命起源到此时此刻这一路上的演化历程。
虽然对这些记录的破译才刚刚开始,我们已经发现,我们的祖先面对的不只是这个充满“血淋淋的牙齿和爪子”【1】的世界里严酷的生存竞争;在我们的基因组里,那儿也进行着史诗般的战役。这些战役彻底改变了我们基因组的运作方式,并最终造就了今日的我们。
普遍祖先【2】 太初有RNA(核糖核酸)。这种“多才多艺”的分子可以储存遗传信息,还能催化化学反应 —— 这意味着有些RNA拥有自我复制的能力。当一个或一组RNA分子开始自我复制,最早的基因组就此诞生。【继续阅读:科学松鼠会 - 生命起源:寻找第一个自我复制者】
RNA的缺点在于它并不那么稳定,所以很早开始,生物就转向使用另一种分子来储存遗传信息。它与RNA分子在化学结构上主链稍有不同,却不那么容易被分解 —— 这种分子就是DNA。至于(RNA在)催化上的作用,也由蛋白质(酶)取而代之,使RNA被降格到一种中间角色(a go-between)。用来制造蛋白质的蓝图储存在DNA中,以RNA副本(RNA copies, 这里指信使RNA mRNA - 译注)的形式发送给蛋白质工厂(指 核糖体 Ribosome - 译注)。
我们的基因组里仍存有许多来自那久远的,RNA仍占主导地位的世界的遗迹。举例来说,这篇文章开头那段无所不在的序列,就是用于编码一种RNA酶的一部分,这种酶知道现在还在蛋白质的合成过程中扮演重要角色。
最迟大约35亿年前,拥有能制造RNA和蛋白质的基因组的生物已经出现,这也是(地球上)所有生物的最近共同祖先。我们确信至少有100个基因可以追溯至LUCA(LUCA,即 Last Universal Common Ancestor,最近共同祖先),来自马里兰州贝塞斯达美国国家卫生研究院(the National Institutes of Health in Bethesda, Maryland)的尤金·库宁(Eugene Koonin)说道。他主要研究生物演化,并表示LUCA拥有的基因可能总计超过1000个。
LUCA的很多核心构建,包括用于制造蛋白质的那些,在如今所有生物体内仍能找到。虽然它和我们现在所熟知的生命形式或许不大相似。一些研究者认为,LUCA不是一个独立的、被一层膜包裹着的细胞,而是一种由病毒似的东西组成的混合物,在类似碱性海底热泉(alkaline hydrothermal vents)的微孔这样的非生物空间里进行自我复制【3】。 分歧与重聚
下一阶段里极有可能的一幕是,LUCA病毒似的组成部件中,有一部分在两个不同时刻“挣脱”出来,获得了细胞膜,并成为简单细胞。这解释了为何存在两种其细胞膜完全不同的简单细胞【4】 —— 细菌(bacteria)和古菌(或古核生物 archaea)。“这是个很吸引人的假说,” 库宁表示。可以确定,在很早开始,生命就已分入两个主要支系。
细菌和原始细菌演化出不少令人惊叹的分子机械,并改造了地球(它们使地球大气稳定,制造氧气,使更复杂的生命形式成为可能 - 译注【5】)。但是,一直以来,它们都不比一小堆化学分子复杂多少。直到一次特别事件将这两大生命分支重新联合,才使复杂细胞,或真核生物(eukaryotes)出现 —— 这个事件令基因组彻底改观,为随后最早的动物的诞生铺平了道路。
约10亿年前,一只细菌莫名进入一只古菌的内部。它们非但没有互相杀害,反而形成了一种共生关系(symbiotic relationship)。那只细菌的后代渐渐承担起一项重任:它们成为线粒体(mitochondria)—— 细胞内部的发电厂 —— 为我们供给能量。
若非这次联姻,复杂的生命形式或许永远也不会出现。我们往往假定,简单生物自然会朝着复杂化的方向演变。但是,单个细菌或古菌却从未超过特定的复杂程度,这又是为什么?
伦敦大学学院(University College London)的尼克·莱恩(Nick Lane)认为,这是由于因为它们撞上了能量壁垒(energy barrier)。所有的简单生物都通过它们的细胞膜产生能量,当它们体积增大,表面积与体积比随之减小,就愈发难以产生足够的能量。结果,这些简单细胞无法变大,也就没有足够空间容纳较大的基因组。作为模块式的、自成一体的能量源,线粒体将这个能量壁垒移除。那么,只需制造更多的线粒体,细胞就能持续增大体积,使扩大基因组、增加信息存储容量,成为可能。
除了将细胞从能量上的束缚中解放,线粒体的细菌祖先还是我们至多四分之三的基因的来源。这个细菌一开始可能有约3000个基因,随着时间进程,有些丢失了,有些则转移到主基因组(main genome)中。因此,现在的线粒体里只剩有少量基因。
看上去尽管益处颇多,这个联盟的缔结实则暗藏危机。尤其是:原始线粒体的基因组感染有部分寄生DNA(parasitic DNA) —— 也称转座子(Transposon)。它们除自我复制没有任何实际作用。它们有时会处在基因的中间,交给它们大片的无关DNA —— 即我们所熟知的内含子(intron)【5】。这就好比在做蛋糕的配方里塞进一张煲汤秘籍。
尽管如此,后果也并不一定是灾难性的,因为这些内含子能“自身剪接”("self-splicing" 图示):在一个基因的RNA副本被制造出来后 —— 这是制造蛋白质的第一步 —— 它们将自己切去(they cut themselves out)。然而,这不会每次都发生,所以这些内含子总有不利之处。大多数细菌的基因里没有内含子,因为它们数量巨大,个体之间竞争激烈,强力的自然选择将内含子扫除殆尽。但是,早期真核生物种群很小,自然选择的效力要微弱得多。这些随线粒体的祖先一并到来的“寄生基因”疯狂复制,使数百个内含子夹杂进主基因组里。
今天,我们每一个基因里一般有八个内含子,它们中的许多都可以追溯到最初的那只真核细胞 —— 我们的祖先从未完全摆脱它们。不过,它们也演化出一些对付内含子的手段,随之改变了我们的基因构造和细胞繁殖的途径。其中之一就是 —— 性。 “性”的益处
性(sex)的重要之处并不仅仅在于使不同个体的基因相混合,还在于其将不同谱系里的“演化成果”合并。一直以来,简单细胞都在进行着基因的交换,完全不必依靠“性”的帮助。(见Bacterial conjugation - 译注)
这个过程(性)也被称为重组(recombination):一对染色体(chromosome)在被分入精子细胞或卵子细胞前会交换相应DNA片段 (见减数分裂,Meiosis - 译注)。我们的基因组由许多个基因相连接而成,好像一粒粒珠子串成一束项链。重组可以帮助解决这种基因组的一个根深蒂固的问题。
设想有一串项链,其中一颗珍珠光彩夺目,紧挨着它的一颗却有瑕疵。如果你没法换掉这颗有瑕疵的珍珠,就只好要么放弃整串项链。要么就这样勉强接受。与之类似,如果一个有益突变恰好与一个有害突变相邻,那么,要么有益突变会(因为有害突变而)消失,要么有害突变被他的邻居拖挟着扩散至整个种群。
重组使我们有了“交换珍珠”的可能。正如你能制作一串完美的和一串有瑕疵的项链,有些后代会遗传有更多“好基因”,有些则“坏基因”(因为有暗中添乱的内含子)更多。不那么走运的个体更容易死亡,那些拥有较好基因的则繁衍兴旺。
在大种群里,突变的数量巨大,有些突变能抵消有害基因的负作用,所以没有必要求诸重组。但是,在小种群里,性最终获得成功。这也是为什么有性生殖成为最初的真核细胞和它的大多后裔的常态。所以,下次做爱时,记得感谢你远古细菌祖先体内的寄生基因。全因有它,我们才得以享受性爱的乐趣。
性姗姗来迟,内含子的数量已经太多,无法完全摆脱它们。所以,早期真核生物很快有了另一个严重危机:随着内含子积累的突变越来越多,“自身剪接”机制逐渐失效。为应对这个问题,早期真核生物演化出一种被称为剪接体(spliceosome)的特殊装置 —— 它能切除基因的RNA副本中的内含子。
剪接体是一个不由大脑(在演化中往往如此)的解决方案:切掉基因RNA副本中的垃圾(内含子),而不是直接从DNA中切除,效率实在不高。不仅如此,剪接体还行动缓慢。许多RNA在被切掉内含子之前就已抵达蛋白质工厂,导致有缺陷的蛋白质被制造出来。
即使是这样,问题也没有得到彻底解决。剪接体经常把基因里被称为外显子(exon)的遗传编码部分也错误地切除,导致变异蛋白质出现。“选择性剪接(alternative splicing)不是适应性变化(adaptation)的结果”,库宁说。“它是生物不得不勉强忍耐的东西。”
于是,我们的祖先演化出一层又一层的复杂机制来对付内含子的扩散繁殖,却仍然没能完全解决它们所带来的问题。不过,与简单细胞不同,由于能量供给无虞,我们的祖先能够负担这种浪费 —— 而且从长远看来,这额外的复杂性反而带来了新的契机。 多功能与调控
事实上,内含子与外显子的存在使基因模块化。在一个连续不间断的基因里,如果发生DNA片段增减这样的突变,其余基因的表达也受到影响,产生些莫名其妙的东西。相反,外显子可以随意移动(即 外显子改组 exon shuffling - 译注)不用担心扰乱基因的其它部分。于是,基因可以以在自己内部或彼此间转移、交换外显子的方式演化了。
举个例子,假设一个随机突变使一个基因里被插入一个额外的外显子。因为选择性剪接的作用,原来的蛋白质仍然可以被制造出来。不过,这也意味着,由这同一个基因也制造出新的蛋白质(如下图)。这个突变或许影响甚微,不会被自然选择剔除,但是长此以往,这些变异蛋白质有机会发展出新的功能或用途。纯属意外,真核细胞为对付内含子的无脑行动使基因更加多功能化,演化力更强(more versatile and more evolvable)。
如果这个关于复杂细胞演化的观点正确,我们基因组中的许多关键特征,从基因的模块化到性,都是最初获得了含有寄生基因的线粒体的直接结果。当然我们也不能排除其他可能,但是没有一个能(像这个假说一样)提供如此完美的解释。“这是我最偏爱的情景,”库宁说。
所有这些不寻常的特性使大量演化革新喷涌而出,真核生物发荣滋长,不久便多样化起来。即便如此,它们仍然面临着新的寄生DNA和病毒持续不断的无情侵犯和攻击。不过,在超越了简单细胞的大小限制后,这些复杂细胞可以不受约束地演化出更为复杂的防御机制。
其中之一,是在DNA上加入标签来阻止RNA副本的复制,从而将转座子的寄生基因“沉默” —— 这个过程被称为“甲基化”(methylation)【继续阅读:果壳 - 衰老如何改变我们的基因】。另一种方法是通过破坏入侵病毒的RNA来遏制它们的自我复制。这些防御只能说是稍有成效:如今,人类基因组里大约有百分之五由已变异的、失去活性的病毒基因残余组成,以及惊人的百分之五十由转座子的遗迹组成 —— 这也是寄生DNA不时以各种方式进入我们祖先的基因组并泛滥成灾的无声的证据。
这些防御机制很快被转向另一个用途:控制细胞本身基因的活性。“用于控制转座子的机制变成了调控基因的机制,”加拿大圭尔夫大学(University of Guelph)的赖安·格雷戈里(Ryan Gregory)说道。他主要研究基因组的演化。
构建躯体
为迎接演化史上下一大步的到来,舞台已搭建完毕。这是在大约八亿年前,细胞比之前任何时候都更加多得互相协作。虽然少数细菌已经成为多细胞,它们在复杂程度上的限制使它们无法沿着这条路继续走下去。相形之下,真核生物已经前后十多次演化出多细胞性,导致大量复杂生物,如真菌,海藻、陆生植物和动物(当然)的诞生。
原因之一是,真核生物的基因本领更大,可以转向新的用途,如将细胞粘合在一起,或与其他细胞通讯。更加重要的是,它们基因的模块化特性使它们演化得更快。 比如,将细胞黏在一起的蛋白质一部分跨越细胞膜,一部分向外突出。多亏模块化的基因,各种形态的突出部分可以附加到跨越细胞膜的那一部分上,好像吸尘器的各种附加装置。许多与多细胞性相关的关键基因都是通过外显子改组演化而来。
不仅如此,真核生物用来调控基因的复杂机制使细胞得以分化。通过打开或关闭一些基因,不同类别的细胞担当起不同的角色。由此,生物发展出不同类型的组织,使早期动物得以从海绵状的生物体演化而来,身体结构也越来越复杂。
下一次大跃进是几个遗传上的意外事件的结果。当(细胞)繁殖复制时出了差错,偶尔整套基因组都会加倍 —— 而这在脊椎动物的祖先身上发生了不止一次。
这些重复基因组带来不少额外基因副本。其中许多已经遗失了,有些则起了新的作用。尤其是4组发展中控制身体构建的主宰基因(master gene) - Hox基因。通常认为,这些基因在内骨架的演化中扮演了重要角色。【7】
重复整个基因组很罕见,大多数新基因由小范围的重复,或外显子改组诞生,有时二者皆有。演化毫无羞耻感 —— 它会充分利用任何DNA。无论它们来自何处,只要有用就行。有些关键基因就从垃圾DNA演化而来,有些则是从其他地方获得。
在某一时刻,早期脊椎动物中,与DNA剪切酶相结合的那段序列最后转移到与识别入侵细菌或病毒有关的基因附近或内部。结果,在生物的一生中,随着细胞增殖,部分基因被hAT酶切下。值得注意的是,在不同的细胞系(cell line)中,被切下的部分也不同,于是产生许多种变异蛋白质。
有些情况下,这证明是关乎生死的东西,因为变异蛋白质可以更好地附着在入侵病原体上。很快,一种用于辨别那些能产生最有效的变异蛋白质的细胞,并促进它们增殖的机制产生了 —— 这就是适应性免疫系统(adaptive immune system)。如今,人类的免疫系统复杂无比,但是负责切下并重新排列基因 —— 确认入侵者的关键过程 —— 的那两种酶,就是hAT酶的直接后代。所以,我们对付疾病的最有效的武器实际上要归功于古老的遗传寄生虫。
人类基因组
配备着这些高级防御系统以及能够制造各种身体形态的基因工具箱,早期脊椎动物极其成功。它们占领海洋,殖民陆地,在树上攀越,又返回地面,开始以两足行走。
是什么让我们与其他猿类相比如此不同?其中一个明显区别是:我们有23对染色体,而不像我们的猿类祖先那样有24对。染色体本质上就是一包包的基因,只要我们所需要的基因仍然完好,无论它们分开还是聚在一起,都没有太大不同。相反,很有可能是一连串的细小变化逐渐改变了我们的大脑和躯体。一些关键的突变已经获得确认(New Scientist, 9 June, p 34 ),但可能还有数千个。
回望整个图景,显然,细胞与躯体的复杂化始于基因组的复杂化。不过,令人吃惊的是,多数早期复杂性的提高恰是因为选择压力的缺失,而不是由其推动。“大多数发生在基因组层面上的活动都是中性的,”格雷戈里说。
换句话说,突变会产生,哪怕它一点儿作用也没有,重复基因便是一例。在较大的种群里,这样的突变会很快遗失。但是,在较小的种群里,它们可以以遗传漂变(genetic drift)的方式随机传播。“这是种群遗传学的必然结果,”库宁说。只在后来,这些复杂性才受到“选择”,例如当一个重复基因获取了新的职能时。
我们的演化史中的许多关键事件,比如基因组重复加倍导致Hox基因产生,可能就是小种群中选择压力较弱的结果。确实,人类演化初期的种群瓶颈(population bottleneck)或许可以解释某些将我们与其他猿类区分开来的变异 —— 例如我们肌肉力量的弱化 —— 的传播扩散。【继续阅读:果壳:人类演化,高潮还在后面】
另一件出人意料的事情是病毒和寄生物的巨大作用。我们的基因组中的许多主要特点,从性到甲基化,都是为对付它们的攻击演化而来。不仅如此,我们有相当数量的基因和外显子,例如免疫酶,都直接来源于这些入侵者。“从最初的那一刻起,病毒就已经是细胞生命必不可少的一部分,”库宁说。
虽然必要,却并不愉快。我们在演化中付出了巨大代价。人们说历史由胜利者书写 —— 那么,我们的基因组本身就是对胜利的记录,记录下那些成功了的,或至少没有使我们的祖先丧命的试验。我们是一长列彩票赢家的后代,奖品是生育出能够活到自己繁育年龄的后代。一路下来,有无数次失败,数以万亿的动物可怕地死去。
我们的基因组远远称不上精细雕琢而成的完美产物。恰恰相反,它由遗传意外的残骸和远古寄生DNA的遗迹草草修补而成。它产生于相当疯狂、难以控制的试验 —— 会被任何学术道德委员会一口拒绝。这个过程延续至今 —— 在任何一家医院里,你都能找到死于可怕的遗传疾病的儿童,不过远比过去要少。多亏有像胚胎筛查(embryo screening)这样的技术,我们自己已经开始掌控人类基因组的演化。一个新的时代已经来临。
迈克尔·佩奇(Michael Le Page) 是《新科学家》生物特别报导编辑
非生物专业,有错误的地方还请指出。 译注:
【1】“a harsh struggle for survival in a world red in tooth and claw”,出自英国诗人阿尔弗雷德·丁尼生(Alfred Lord Tennyson 1809–1892)的“In Memoriam A.H.H.”,Canto 56:
【2】“普遍祖先,the universal ancestor ”,与“共同祖先,the common ancestor” 区分;
【4】“细胞膜不同” —— 详见 Difference Between Archaea and Bacteria
【6】内含子与转座子的区别:内含子是真核基因中特定存在的,应该说如果没有内含子,基因就不能正常表达的,因为一些内含子起着重要的调节作用,比如增强子、沉寂子等等,有一些内含子的功能还在探究中。而转座子是在原核和真核生物中都存在的,正常状态是不整合到基因中的,插入正常基因就会出现插入突变,阅读框改变,最终导致基因无法正常表达而失活。-- 出处
【7】见《演化》书评:寒武纪物种大爆发和Hox同源框架基因 |
|