分享

Nat Mach Intell|如何构建可靠的蛋白质语言模型路线图

 智药邦 2023-04-20 发布于上海

基于深度神经网络的语言模型(LM)越来越多地应用于大规模蛋白质序列数据,来预测蛋白质功能。然而,目前的蛋白质LM方法在很大程度上是黑箱模型,无助于从根本上理解序列-功能的关系,阻碍了基于科学规则的生物治疗药物开发。目前LM研究领域的共识认为语言学是一个专门从自然语言数据中提取分析规则的学科,它可以帮助构建更多可解释的蛋白质LM,这些LM更有可能学习相关的特定领域规则。与自然语言LM相比,蛋白质序列数据和语言序列数据之间的差异需要在蛋白质LM中整合更多的领域特异性知识。

图1. 奥斯陆大学研究团队发表在nature machine intelligence的文章

2023年3月2日,奥斯陆大学研究团队在Nature子刊nature machine intelligence上发表了一篇研究论文Linguistically inspired roadmap for building biologically reliable protein language models,为蛋白质LM管道选择提供了一个基于语言学的路线图,涉及训练数据、标记化、标记嵌入、序列嵌入和模型解释。该路线图将语言学思想融入蛋白质LM,用于开发下一代可揭示序列-功能关系的生物学机制的机器学习模型。

蛋白质LM的研究挑战

近年来,不少科研团队将LM的机器学习工具或序列模型(例如BERT、RoBERTa和GPT)应用于生物序列数据。
LM是自然语言处理(NLP)中的一种工具,NLP是计算机工程应用于自然语言的一个子领域。他们通过以自我迭代的方式从庞大的、未标记的序列数据中学习统计模式,在令牌序列(例如,字符、单词、子单词)上创建概率分布。因此,LM已成为一种流行的工具,用于处理数量呈指数级增长的未标记蛋白质序列,并有可能捕捉其背后的生物化学和物理化学原理序列-结构-功能关系。为了利用这一潜力,蛋白质LM必须在不过度拟合特定训练数据集的情况下,真实地学习数据背后的真正可推广的科学原理。但是到目前为止,尚不清楚构建这种蛋白质LM需要多少生物学知识(例如结构信息、功能构建块)
考虑到在许多NLP任务中无语言先验的高容量自然语言LM的成功,构建具有最小生物先验的蛋白质LM可能很有吸引力。事实上,具有最小生物学先验的多个蛋白质LM在结构和功能预测任务上表现得非常好。然而,将蛋白质序列与自然语言进行深入比较表明发现,由于两种类型的数据之间的差异,不能保证LM学习到的模式可以被生物学上的规则解释,因此需要在蛋白质LM中进一步整合生物结构域知识(图2)。
图2. 构建受语言学启发的生物学上可靠的蛋白质语言模型路线图
没有语言先验的自然语言LMs的成功主要是因为语言数据符合分布语义假设:共享相似上下文的标记具有相似的语义。因此,如果输入标记对应于单个的语义单位,则可以通过自监督的方式仅从分布规律推断出一些语义信息。由于许多自然语言写法包含内置的符号(例如空格和标点),这些符号将语言序列划分为有意义的标记,因此通常不需要明确的语言知识获得语言数据的充分概括。到目前为止,还不知道分布语义是否适用于蛋白质,因为对有意义的蛋白质标记(即“蛋白质单词”)没有全面的定义。由于蛋白质序列没有内置的符号来表示结构,因此需要一种更具分析性、专业知识驱动的方法来寻找蛋白质单词。
此外,生物数据和语言数据在覆盖所有可能类型的序列方面有所不同。目前,还没有关于蛋白质序列功能映射规则的全面知识,因此无法保证可用数据包含所有相关信息。对于更专业的语言模型,如免疫受体语言模型,可用的序列数据对潜在的序列空间采样不足(目前记录了10^9个公开可用的免疫受体序列,而生物学上可能的序列大于10^9个)。相比之下,由于已有的语言知识,经过充分研究的语言的自然语言语料库的全面性是可以14证的。在某些语言的语料库资源不足的的情况下,与拥有丰富数据的语言相比,模型尤其受益于语言先验。同样,资源不足的蛋白质家族也可能受益于纳入蛋白质LM的生物学先验。
最后,深度蛋白LM通常在没有其原始基因组背景的蛋白质氨基酸序列上进行训练。在缺乏基因组背景的情况下,由于功能相关基因的聚集,这将为蛋白质功能提供额外的线索,但是推断蛋白质LM中单个序列的含义(即功能)则没有可靠的依据。相比之下,在自然语言语料库中,其他句子的上下文可以显著地帮助推断目标句子的含义。因此,蛋白质LM必须更多地依赖于结构域知识来确定分离序列的整体功能。
基于上述研究困境,奥斯陆大学科研团队开辟了一个独特的路径,利用深度LM管道的多个方面:预训练数据选择、标记化、标记和序列嵌入构建学习真正生物学原理的蛋白质LM。此外,对蛋白质LM的解释性方法(图3),借鉴了自然语言LM的研究。
图3. 应用于蛋白质序列的深层语言模型管道概述。

预训练数据应反映下游任务的目标

预训练数据集中的数据点定义了LM建模的语言:例如,BERT:在英语维基百科上预训练的LM和英语图书语料库将是英语的模型,而在生物医学文本上预训练过的BioBERT是生物医学英语的模型。因此在预训练期间,蛋白质LM由预训练数据中包含的一组蛋白质序列决定:它可以是广泛蛋白质语言模型的所有可用蛋白质序列;人类蛋白质语言模型中的人类蛋白质序列集;或抗体语言模型中所有观察到的抗体序列集。在任何情况下,都必须根据蛋白质模型的科学目标对语言进行严格的定义,并构建一个预训练数据集,用适当的信息反映这种语言,以推断可证明的生物学原理。

预训练一般有两种选择,一种选择是创建一个特定于狭窄的下游任务的语言模型。例如,已经开发了几种特定于受试者的自然语言LM来捕捉特定于受检者的表征意义(例如,用于生物医学文本的BioBERT)。另一种选择是使用最通用、最大可能的数据集进行预训练,可以在多个不同的下游任务中利用该数据集。例如,多语言LM同时对来自多种自然语言的数据进行预训练,并对只涉及其中一种语言的任务进行微调。如果下游任务涉及一般蛋白质特征(例如,二级结构、结构中的氨基酸接触和稳定性),则根据所有可用蛋白质序列训练的一般蛋白质LM与单语自然语言LM类似的方法进行训练。如果下游任务仅与一小部分蛋白质相关(例如,抗体序列问题,抗体亲和力成熟或表位预测),则它们更类似于多语言LM训练。
NLP的研究表明,与单语LM相比,多语言LM仍然有限;它们的性能与训练数据的大小以及训练和测试数据中语言之间的相似性相关。因此,在所有可用的蛋白质序列数据上预先训练的LM可能对预测蛋白质一般特征的下游任务最有效。为了回答只针对某些类型的蛋白质的问题,如抗体序列,专门的抗体LM表现更好。例如,AntiBERTa在许多抗体特异性任务上优于通用蛋白质模型ProtBERT。
由于LM已经显示出即使在显著不同类型的数据(如语言和蛋白质数据)之间也能进行知识转移的能力,因此仅凭良好的LM性能并不能证明为了发现生物学原理而进行预训练数据选择是合理的,对该问题和序列分布的仔细研究仍然是必要的。因此,为了选择有助于真正科学见解的适当预训练数据,需要仔细考虑它是否包含可转移到下游任务的信息,并进行更多的实证研究,以确定与随机生成数据的基线相比,不同类型的预训练数据对各种微调任务的可行性,以及更多可用于特殊类型蛋白质的大型数据集。

标记化应以具有生物意义的单位为目标

标记化是将输入序列细分为离散单元;它不是序列编码,它涉及序列中包含的表示和信息(例如,氨基酸含量、结构信息、物理化学性质或其他功能的信息)。标记化是LM训练中的一个基本步骤,因为预训练任务通常涉及序列中标记的预测(图3)。研究团队认为,除了技术需求之外,寻找接近生物学意义基序的表征(类似于自然语言中的语言学意义表征)对于在蛋白质LM中构建具有生物学意义规则的模型是不可或缺的。

研究团队建立了一个基于生物领域知识和科学规则的标记化器(图4)。这种方法可能特别有利于对某些序列数据不太丰富的蛋白质进行建模,类似于语言引导的标记化如何为资源不足的语言带来更好的结果,目前还不知道这些类型的标记化是否会满足计算标准。尽管如此,由于对什么应该构成有意义的蛋白质标记的知识非常有限,基于规则的标记化器的实现仍然极具挑战性。作为第一步,蛋白质领域科学家必须定义可能的功能含义,这些含义可以实际地与离散的蛋白质标记联系起来。

图4. 蛋白质序列标记化生成类似于自然语言中语言发音标记的生物功能蛋白质标记

一种可能性是从现有的研究中得出结论,这些研究发现了功能和结构上重要的子域的标记。主要的挑战是,许多专家定义的标记需要结构数据,并且不能大规模应用于未标记的序列数据。另一种可能性是在蛋白质模拟中基于大量定义的标记来训练标记化器。第三种可能性是基于微调任务来训练标记化器。

有生物学意义的蛋白质标记可能是不连续的、重叠的,每个序列可能需要映射到几种不同的标记化可能性(图4),需要替代LM技术进行适当处理。一个解决方案是从非连续标记转移到较小的连续子标记,它们之间具有远距离依赖性,但这种策略没有达到语言目标,并且在概念上以牺牲可解释性为代价,将标记化与远距离依赖规则混合在一起。

总之,科学家需要有一个全面的蛋白质标记的定义,可以作为比较各种标记化方法的基本事实。蛋白质包含位置决定其功能的单元(至少在蛋白质结构域的范围内),这一事实类似于语言标记如何从组成上映射到句子含义,这表明,如果有更有力的数据和调查,分析的语言标记化方法可能会转移到蛋白质标记化。

标记嵌入可以捕获蛋白质功能‍‍‍‍

LM将标记表示为多维向量,称为嵌入,理想地反映了这些单元的功能含义。标记嵌入最初是在预训练期间计算的,然后在微调期间进一步细化。嵌入可以从预先训练的LM中提取,并用作使用更小数据集的下游任务的输入(图3)。标记嵌入的语言功能是反映标记在文本中的语言作用,在蛋白质标记的情况下,这些作用相当于它们的生物功能。目前大多数蛋白质LM直接借用标准的NLP预训练任务进行标记嵌入。这些标记通常是氨基酸,通常用一个热编码来表示,上下文是蛋白质序列本身的其余部分。
研究团队使用了标准标记嵌入方法的替代方案,预训练任务更具体地针对下游任务。例如,ProteinBERT是在与其基因本体论(GO)注释一起编码的蛋白质序列上进行预训练的,GO注释是蛋白质序列功能的注释。因此,单个氨基酸的嵌入捕获了序列及其GO注释的信息。另一种是在蛋白质特异性任务上预训练蛋白质LM,例如在结构信息预测上。蛋白质LM缺乏对标记嵌入所包含信息的广泛调查,因为所有评估都是肤浅的。团队认为,通过基于域的标记化和精心选择的标记嵌入任务,标记嵌入可以捕获超出物理化学性质的更抽象的生物功能。这样的标记嵌入也将显著提高蛋白质LM的可解释性。

可解释性方法的类型影响可学习模式

研究人员认为从研究初始就应将可解释性因素纳入蛋白质LM设计的重要部分。他们区分了三种类型的可解释性方法:架构分析、语言学启发的实验和语法推断。每种方法都有不同的优点和缺点。所有方法都需要对蛋白质序列中可能存在的生物学规则有较好的先验理解。因此,为了获得对蛋白质LM的充分了解,需要使用多种方法对LM进行持续的探索。架构分析(例如,研究架构中的特定层,探索预先训练的嵌入,解释显著性图),这是最流行的可解释性方法,可以产生关于模型体系结构在哪里以及如何存储关于序列的各种类型的知识的信息,并突出显示对分类任务重要的输入部分。了解体系结构中知识存储的定位和方法可以提高模型的可解释性和效率。
另外两种方法,语言学启发的经验和语法推理,可以产生模型所学习的可推广、定义明确的序列函数规则。对于蛋白质LM,可用于提取新的序列-功能规则。由于目标是学习新的结构-功能关系规则,因此需要大量的猜测。例如,如果科学家假设某个基因序列对应某种蛋白质功能,那么他们可以通过测试含有该基因序列的蛋白质LM和不含有该基因序列的蛋白质LM的异同来测试这一规则的准确性。

结论‍‍‍

LM最初是建模语言序列的工具,蛋白质LM有可能识别出可以进一步实验测试的相关序列规则,从而为生物学研究中的蛋白质功能预测做出贡献,并加速合理的蛋白质模型设计。然而,目前在设计和构建蛋白质LM方面的实践还存在缺陷,因为对它们最初是如何构建语言序列建模缺乏更深入的理解。研究团队在本研究中强调了LM管道的各个部分(预训练数据、标记化、标记和序列嵌入以及规则提取),并展示了理解这些步骤背后的原始语言意图如何为构建更具生物信息的蛋白质LM提供支持。

研究团队强调本研究的目标不是建立性能最好的模型,而是在扩展到更大的模型之前,系统地研究LM的各个方面,这些方面可能会对成功的序列-函数规则学习产生影响。通过对LM管道各个部分的研究使蛋白质LM更有可能学习到建模序列的相关生物学规则并进行合理的蛋白质设计。
参考资料:‍‍
Mai Ha Vu.et al.Linguistically inspired roadmap for building biologically reliable protein language models.Nature Machine Intelligence(2023)

doi:https:///10.1038/s42256-023-00637-1

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多