万字综述：写给神经科学家的大语言模型底层逻辑 | 追问顶刊（上）

天承办公室 2024-04-23 发布于北京

展开全文

大语言模型（LLMs）是机器学习领域中用于处理和生成自然语言文本的新工具。该文提供了对该建模技术的属性定义，并反思LLMs如何被用来重新构建经典的神经科学问题，以提供新的答案。

我们认为LLMs有潜力（1）通过添加如高级文本情感分析等有价值的元信息来丰富神经科学数据集；（2）总结大量信息来源，以克服孤立的神经科学社群之间的隔阂；（3）促使与大脑相关的不同信息源得以进行前所未有的融合；（4）帮助确定哪些认知概念最有效地把握大脑中的现象。

本文为论文上篇，重点介绍LLMs的属性及能力，为如何运用LLMs解决神经科学与生物医学的问题铺垫基础。

▷ Bzdok, Danilo, et al. 'Data science opportunities of large language models for neuroscience and biomedicine.' Neuron (2024). https:///10.1016/j.neuron.2024.01.016

背景介绍

语言不仅仅是交流的工具，它还蕴含着丰富的人类智慧和信息，在一个比特中，其内涵的丰富性远超过我们通常所接触到的任何其他数据形式。自然语言处理（NLP）是一门致力于让计算机拥有理解、解读以及创造人类语言的能力的科学，它在分析和处理人类文本资料方面已经取得了显著的进展。

在早期，研究者借助如n-gram模型这样的简单语言模型（例如，2-gram模型将词-词组合视为独特实体）用来研究语言和语义，以达到各种目的。这些语言模型不时地被用于研究各种认知任务，包括阅读理解、语言翻译和问题解答等。通过比较NLP模型在这些任务上的表现与人类的表现，研究人员获得了关于人类认知的洞见，就如心理语言学领域所示。

大约2010年之后，深度学习的兴起点燃了NLP建模中的语义“嵌入”时代——单个词语、句子、段落或整个文档，都可以封装在一个紧凑的浮点向量格式中，以此向量来表示对应词句的意义。从直观上讲，这种嵌入方式类似于在高维坐标系中定位，使得不同的语义实体（如词序列）根据它们在上下文中的相似性被映射到相近的位置^[1-4]。两个语义实体表示的上下文越相似，它们的语义嵌入就越相似。使用像Word2Vec^[5]和GloVe^[6]这样的最新一代模型，研究人员开始使用这些可互操作的语义嵌入表示来量化意义之间的关系，如词语或句子之间的关系。

当前的大语言模型（LLMs）是在比一个人在数百或数千个生命周期中能阅读的文本还要多的数据上训练的。这种庞大的数据训练基础使它们涌现（emergent）出了诸多能力，如编写计算机编程代码、数学、规划、文献综述和总结，或玩基于文本的游戏等。这些能力并非在它们的各个组成部分中原本就有，而是随着系统复杂度的增加而涌现出来^[7]。有时，这样的模型被用来研究大脑如何处理上下文信息以及人类心智如何产生语言（请参见Goldstein^[8]、Caucheteux^[9]和Schrimpf^[10]的优秀示例）。随着当前研究范式的转变和大模型规模呈指数级增长，LLMs学习了迄今为止可能是最强大的意义内部表征。

人类语言反映了人类思维，这就是为什么最先进的NLP可能会为神经科学研究提供内生的优势。从这个角度来看，该文试图讨论大模型对神经科学和生物医学研究者带来的即将到来的影响。

数据科学的角度，

大语言模型解决方案

历史上，自2010至2012年以来，卷积深度神经网络（CNNs）因其在处理图像等网格结构数据上的优势，重燃了人工智能的热潮，而LLMs目前正在为AI生态系统注入另一波动力。特别是在引入了Transformer架构之后，语言模型取得了显著进展（例如，Vaswani等人^[11]的研究在发表后的前5年内被引用超过9万次），推动了当前AI创新的推动力。

GPT-2在多个语言任务上表现出色，它由24个Transformer块组成，而最新的架构更是深入发展，一些细节仍待揭晓。作为所谓的“生成性AI”的一个实例，这些算法的输出不是类别（例如，患病与健康组的患者）、数字（例如，认知表现测量）或离散类别（例如，年收入的区间），而是一种结构化的内容，如语言（以及图像或音频信息），即从之前输入的内容中合成或幻想新内容。

相较于以往复杂的深度神经网络，Transformer架构以更简洁的特性成为NLP领域的新宠（见图1和图2）。这种简化的架构比之前的方案更具可扩展性，部分原因是这种架构非常适合并行计算工作流程。与之前的深度NLP解决方案不同，在Transformer架构中，无论是近还是远的词标记之间的相互依赖关系，都能同样好地被捕捉。

与某些之前的神经网络设计不同，Transformer模型是前馈深度学习架构，不包含显式的处理循环。相反，通过将已经生成的、之前的文本作为输入反馈到LLM中（“自回归”），创建了隐式循环。与围绕BERT（使用双向上下文来理解词义）的前一代LLM不同，生成性预训练Transformer（GPT）架构，如ChatGPT，在训练期间只关注当前词之前的词标记，这导致了其单向处理模式，即具有自回归性质。

Transformer中所谓的位置编码是该架构的一个特征，它帮助模型理解词序。在自然语言处理中，自回归模型会根据前面的词来预测下一个词。由于其单向性质，GPT式LLMs在预测下一个词时不会“看到”或“考虑”后续的词标记——它是在回顾给定句子的过去，而非展望未来，正如人类阅读书籍时的方式。

▷ 图一：transformer架构的大语言模型的核心-自注意力机制

正是自注意力机制构成了Transformer建模架构的核心。自注意力机制允许模型在处理序列数据时，对序列中的每个元素分配不同的注意力权重，从而更好地捕捉序列内的长距离依赖关系。

专注于更近或更远的词标记在算法上是相同的——不需要经过逐步迭代的过程来关联更远的信息片段，这与早期深度学习架构的要求不同。在Transformer中，关注句子中附近或远处的词的处理方式是相同的，该架构允许模型同时考虑句子或文本序列的所有部分。与早期的神经网络相比，这意味着不需要按顺序处理输入的远端部分。

自注意力机制的常见实现的计算复杂度与序列长度成二次方相关^[12]。尽管在注意力机制上有所改进，但在处理特别长的序列时，大多数情况仍然遇到困难^[13]。每个Transformer层可以一次性“看到”其范围内的所有标记。然而，递归信息处理的深度受到连续Transformer层数的限制，例如句子的嵌套意义或数字序列的连续乘法。

▷ 图二：自注意力（self-attention）层在transformer架构中的作用

此外，当前的LLM架构通常在每个连续的Transformer层中设置了几个并行的注意力机制。这种“多头注意力”（1）允许同时并行关注输入序列的几个不同方面，扩大了整体可以捕捉的复杂性范围；（2）因此允许同时识别和提取多个语义表示维度（有些类似于建模不同的潜在因子成分，如主成分分析或自编码器神经网络）^[14]。

值得注意的是，温度参数（temperature，一个在0到正数范围内的标量值）是一个影响模型表现的超参数。这个超参数控制着模型输出的创造性程度，作为一种平衡探索与利用（exploration versus exploitation）的形式。设置高温度（例如，>1）会在最后一层模型中产生更均匀的词概率分布。这导致输出更加模糊，因此可能不够准确，但也更具创造性。相反，低温度（例如，<1）会导致输出词相关性的概率分布更加尖锐。在这种操作模式下，模型变得更加具有确定性，紧密遵循输出分布中最可能的候选词，从而减少了响应中的随机性。

尽管模型目标简单（例如，BERT调用词掩蔽，GPT3调用下一个词预测，而在GPT4/ChatGPT的情况下涉及人类反馈），但由于其庞大的规模，Transformer赋予的架构已经引发了小样本学习（few-shot learning）和在多个情景中生成派生语义世界模型的能力^[15]。这些能力是自监督建模制度的核心。这些次生能力甚至让这些模型的创造者在解释LLMs的成功时花了不少功夫^[16]。

LLM解决方案的涌现标度定律

规模效应的极限是什么？作为影响模型性能的关键量，随着训练观察数量的增加，LLMs的模型生成实例的质量迅速提高。在拥有大约2到20倍于模型参数的训练词标记数量时，LLMs已经在多个场合取得了令人印象深刻的表现。

从数据的角度来看，很难感知到模型所需的可用文本、转换文本（ext-transformed）和可转换文本数据（text-transformable data）的上限。具体来说，根据简单的规范假设（根据ChatGPT查询，截至2023年9月，大约有120亿个网站，每个网站平均1500个词），互联网上所有文本的总量可能达到约2万亿词标记。从模型的角度来看，从2018年到2022年，LLMs的规模（参数）从大约10^8（例如，ELMo，BERT-L）增加到大约10^11（例如，PaLM）。作为许多应用场景中的一个基本原则，扩大模型的深度和宽度（增加参数数量）会带来明显的性能提升。了解模型性能如何随规模变化具有战略价值，因为此类见解可以指导资源分配决策：如何确定计算预算、数据资源和模型大小的优先级。

更具体地说，深度学习文献中一项全面的、广泛认可的经验研究，探索并仔细地基准测试了跨越七个数量级的模型规模所带来的影响^[17]。这些研究者设计了计算实验，成功地确定了决定模型性能变化的三个关键因素：（1）模型参数的数量（N）；（2）可用数据量（D）；以及（3）用于模型估计的计算能力（C）。在这些实验中，模型性能仅轻微依赖于模型架构的实际形状。通过同时增加N和D，似乎在很大程度上防止了过拟合（即对训练数据中的特殊性的过度适配）。相反，如果只增加N或D（但保持另一个因素固定），性能会下降[18]。最后，N、D和C的持续扩大显示出回报递减的模式，遵循幂律法则。

然而，最新的研究进展指出，与最初增加模型规模的趋势相反，LLMs在所需参数数量上会随着训练越来越小^[18,19]。对许多研究者来说，这似乎是反直觉的，再次减少模型规模，可能更好地与实际可用数据量对齐，提高了模型性能，放宽了内存要求，并减轻了计算成本。这些改进可能对LLM解决方案在现实世界问题中的应用至关重要，并增加了未来几年智能手机作为广泛使用的移动设备携带专用LLMs的潜力。简而言之，一个新兴的研究表明，相对于模型参数规模，更多的数据在某种程度上更为重要，尽管两者都是推动模型性能提升和发展的关键因素。

值得注意的是，衡量模型性能在很大程度上取决于研究者选择的评估指标^[20]。这些作者认为，只有通过选择特定的评估指标，才能显现出LLMs的“涌现能力”（即在模型规模增大时，模型展现出的新能力或行为^[15]）。与上述观点相反，Schaeffer等人^[20]还展示了评估指标的选择可以在不同的架构和任务中诱导出看似涌现的能力。因此，最近的实证研究^[20]表明，改变评估指标可以削弱或增强LLM架构中涌现能力的信号，这对AI安全和AI对齐有直接影响。

总的来说，较大的LLMs在微调和小样本学习场景中比较小的LLMs更具样本效率。也就是说，矛盾的是，需要估计的模型参数越多，实现相近性能所需的输入数据点就越少。正如在数据科学中一般，提高数据质量总是可以带来进一步的性能提升。重要的是要承认，神经网络的幂律定律在目前上几乎完全是经验性的，但这些幂律特征显示出稳健的趋势^[21]。LLM架构的扩展和爆炸是由（1）transformer的发明，这些transformer在最近的LLMs中变化不大；（2）大量数据源的可用性；以及（3）大规模计算能力的可用性推动的。与下一部分相关，模型的具体架构（如层数、层维度等）相对不那么重要，尤其是随着模型规模的增加。

LLMs展现出前所未有的迁移学习能力

为了使深度学习工具蓬勃发展，通常需要丰富的数据。然而，神经科学领域的许多领域并没有现成的大量数据可用，更不用说像AI社区中用于文本和图像分析的互联网规模数据集。这种差异引发了一个问题：我们可以利用哪些丰富的非神经科学数据来建模解决方案，之后迁移到神经科学问题上？

“迁移学习”（transfer learning）是一种数据分析模式，其核心在于解决一个问题时积累的结构化知识，可以之后被应用到一个不同但相关的问题上。迁移学习旨在提高在类似但数据资源可能严重受限的任务上的模型性能。在深度学习的背景下，这通常意味着首先在大规模数据集上预训练模型作为起点，然后，通过轻微调整（微调）模型参数，将这个模型应用于与特定任务相关的较小数据集上*。这个过程利用了这样一个假设：预训练模型学到的特征可以作为通用表示，对目标任务有益。历史上，迁移学习的成功通常依赖于预训练和微调任务之间的高度相似性。

*请参见https://www./transfer-learning/，了解LLMs微调技术的全面资源

LLMs和其他基于Transformer架构的模型在迁移学习方面展现出超出预期的能力，从而通过扩大可执行任务的范围，彻底改变了自然语言处理（NLP）。作为一个关键的转折点，直到最近，主导范式仍然是在大规模语料库上进行有监督的模型预训练。这需要大量的高质量标注数据，而这些高质量的标注不易获得，严重限制了互联网和其他来源可用数据的实际预训练和迁移学习。直到现在，通过无监督预训练，无需为每个数据点提供精确的注释就成为可能，这标志着性能的一个巨大飞跃。这一分水岭事件极大地扩展了LLMs预训练可用数据的范围。

更正式地说，LLM中需要估计的参数越多，模型开发过程就越慢。LLMs开启了全新的微调领域，超越了以往模式中学习算法能够实现的任务范围。研究人员已经提出的几种方法，可以在只更新或添加相对较少的参数的情况下，使模型适应新任务。其中一种策略是“冻结”（保持不变）预训练LLM的多个层的参数。这种方法接下来只调整下游任务的一小部分可调参数，从而避免在神经网络学习新任务时，遗忘之前习得知识的现象。

在微调过程中，通过向LLM中添加新的可学习层，可以进一步扩展这种策略。这样新增的“适配层”可以显著减少目标任务的训练时间和计算成本^[22-24]。研究已经证明，选择特别高质量的数据用于微调，即使在目标任务的样本量较少的情况下，也能给迁移学习后的模型带来有竞争力的性能。LLMs在小样本学习方面表现出色。在极端情况下，即便没有为新任务提供示例，仅利用预训练的LLM进行零样本学习，也已证明LLM即使没有调整预训练模型，其零样本学习能力也使其在各种下游任务中表现出色^[25,26]。

简而言之，LLMs包含着数十亿个可调模型参数，通过其庞大的规模，解锁了从大规模文本语料库中提取本质表征的能力，而不再迫切需要监督标签注释。无监督深度学习在实践中被证明更具可扩展性。因此，对于那些没有能力从零开始训练LLM的神经科学家来说，通过微调已经预训练好的模型来适应感兴趣的特定任务，可以充分利用这些模型的先进性能，同时减少对数据和计算资源的需求。LLMs可以更好地识别文本中的深层隐藏模式、关系和上下文，这使它们能够回答人类的查询、创造性地生成新内容，以及形成准确的结果预测。

作为计算乐高积木的基础模型

基础模型最初是在大规模文本语料库上进行训练的，例如互联网内容和其他公共或私人来源的数据。这让它们能够发展并构建一个通用的内部语义表征，该表征包括语法和句法，尽管LLMs在多大程度上包含了对语义的理解目前还存在争论^[20,27,28]。更进一步，这些模型学习了大量的通用知识、展现了一定的推理能力，以及对可能的语义世界的表征。基础模型的演变可以追溯到transformer时代之前的上一代NLP模型（2017年之前），如Word2Vec[5]和GloVe[6]，它们在连续向量空间中表达词语（参见1背景介绍），这暗示了语义空间的普遍性。

通过从不同的多样来源提炼和吸收精华，基础模型形成了一个通用表征，它包含了庞大、紧凑和密集的人类知识，作为下游建模的先验知识。这不仅仅包含记忆，且包含信息提取和结构化。从哲学上讲，这种对信息的成功压缩可以视为预测能力的一大飞跃，因为成功的预测本身就是一种信息压缩的体现。类似于共享基础设施或平台，这样的AI引擎可以作为多种任务构建的基础，使许多定量建模工作流程变得可行、高效且易于扩展。这些基础模型就像是乐高积木，因为许多下游应用可以在它们之上构建，就像堆叠积木一样。这种对定量建模的新态度与为狭窄任务部署训练专门模型相反。

利用数千个GPU处理数万亿个词元，几周时间内就能完成LLM的训练，其成果能被存储并部署至智能手机中。未来的基础建模框架将提供通用的计算单元，这将有可能使广泛的研究者能够民主化地访问高质量的AI解决方案。这对于神经科学尤为重要，因为神经科学家往往需要在比核心机器学习社区更小的数据集上进行操作。同样，在生物研究中，即使在人类细胞图谱项目中也是如此。截至本文撰写时，该项目也只产生了来自约6,000名捐赠者的约4千万个人类细胞的基因表达数据。

如何创新性地利用这些基础操作系统，以全新视角审视并解决经典研究问题，将是一场大胆的创新之举——在transformer类模型出现之前，这些应用是完全不可想象且和不可行的。使不同领域的研究人员能够启动共同的计算模型模块，也可能有助于提高研究之间的可比较性，并促进不同机构和地理位置间的团队合作。随着资源日益紧缩，深度学习的突破性成果将变得更加容易获取。基础模型在不久的将来，极有可能彻底改变神经科学和生物医学领域的生物信息学面貌。

延展：当前LLM的缺陷

尽管LLMs可能是有史以来发展最快的技术，但今天的这些模型版本仍面临许多挑战。

幻觉：幻觉是模型生成与现实或提供上下文无关的文本或信息的常见问题。模型可能会生成听起来合理但错误或捏造的信息，尽管表达得很自信。LLM的设计是生成文本，而不管模型对其输出是否确定。因此，当前的LLM变体可能在准确和可靠的信息查询（例如，给出确切的论文引用）方面处于不利地位^[70]。

大数据依赖：LLMs需要大量的输入数据。现在，互联网的大部分内容已经被用于LLM的开发。因此，我们可能会想知道，我们是否已经耗尽了可用的训练数据。未来训练更强大的LLMs的数据生成模式是什么？一种可能性是，上一代LLMs将越来越多地在互联网或其他场所生成输出数据，这些数据将被反馈到下一代LLMs中。目前很难预测这种递归场景的后果。可能的一个后果是，针对评估方案的解决方案可能会越来越多，从而污染训练数据。

资源饥渴：部署LLMs需要大量的计算能力、信息存储容量和能源消耗；可能还包括持续的环境影响。对于那些打算从头开始训练LLM的目标，所需的计算存储资源的丰富程度可能使地球上的大多数工业、学术和政府机构无法参与。

推理：这类模型通常缺乏常识，在应对训练数据中未出现的新情况时，其反应能力有限。我们如何确保LLMs的行为符合人类价值观（所谓的对齐问题）？此外，这些模型有时可能会生成与提供给它的上下文不相关或不完全对齐的文本。作为解释的一部分，LLMs在单步推理任务中表现相当好，但在连续推理步骤的整合上面临挑战。

偏见和伦理考虑：LLMs继承了训练过程中可能存在于摄入数据集的偏见。模型可能会无意中生成有害、冒犯性或有偏差的输出。从人类反馈中进行强化学习，校准LLMs以产生人类期望的答案，可能是解决方案的一部分。此外，当前的LLMs在跨语言和文化方面可能表现不佳。

判定：判断文本是否由LLM生成可能极为困难，甚至不可能。

缺乏可解释性：对于用户和开发者来说，理解给定模型为何生成特定响应仍然很困难，这对于需要可解释性和透明度的应用来说是一个重大限制，尤其是在政治压力下要求机器学习解决方案必须是“白盒”的情况下（（参见欧盟的GDPR法律）。闭源LLMs进一步使这个问题复杂化。

规模扩大的递减回报：随着数据量和计算/存储资源的持续增加，我们已经开始遇到递减回报的问题。未来可能需要采取替代策略，以将LLM的能力提升到新的水平。

总结

在本文中我们重点探讨了大型语言模型（LLMs）在神经科学领域的应用潜力，以及它们如何可能改变我们理解大脑和其疾病的方式。LLMs的能力——从提供新的数据分析方法到促进不同神经科学领域之间的知识融合——预示着一场革命。

在即将发布的下篇中（预计3月4日发布），我们将重点介绍LLMs如何革新神经科学研究，特别是它们如何帮助我们克服数据解读的障碍，促进跨学科合作，以及如何帮助我们理解人类最复杂器官——大脑。敬请期待。

1. Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., and Dean, J. (2013).

Distributed representations of words and phrases and their compositionality. Adv. Neural Inf. Process. Syst. 26. https://papers./paper_files/

paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf.

2. Le, Q., and Mikolov, T. (2014). Distributed representations of sentences

and documents. PMLR 32, 1188–1196.

3. Conneau, A., Kiela, D., Schwenk, H., Barrault, L., and Bordes, A. (2017).

Supervised learning of universal sentence representations from natural

language inference data. Preprint at arXiv. https:///10.48550/arXiv.1705.02364.

4. McCann, B., Bradbury, J., Xiong, C., and Socher, R. (2017). Learned in

translation: Contextualized word vectors. Adv. Neural Inf. Process.

Syst.. https://dl./doi/10.5555/3295222.3295377.

5. Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation

of word representations in vector space. Preprint at arXiv. https:///

10.48550/arXiv.1301.3781.

6. Pennington, J., Socher, R., and Manning, C.D. (2014). Glove: Global vectors for word representation. https://nlp./pubs/glove.pdf.

7. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar,

E., Lee, P., Lee, Y.T., Li, Y., and Lundberg, S. (2023). Sparks of artificial

general intelligence: Early experiments with gpt-4. Preprint at arXiv.

https:///10.48550/arXiv.2303.12712.

8. Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., Nastase, S.A., Feder, A., Emanuel, D., Cohen, A., et al. (2022). Shared computational principles for language processing in humans and deep language

models. Nat. Neurosci. 25, 369–380. https:///10.1038/s41593-022-

01026-4.

9. Caucheteux, C., Gramfort, A., and King, J.-R. (2023). Evidence of a predictive coding hierarchy in the human brain listening to speech. Nat. Hum. Behav. 7, 430–441. https:///10.1038/s41562-022-01516-2.

10. Schrimpf, M., Blank, I.A., Tuckute, G., Kauf, C., Hosseini, E.A., Kanwisher,

N., Tenenbaum, J.B., and Fedorenko, E. (2021). The neural architecture of

language: Integrative modeling converges on predictive processing. Proc.

Natl. Acad. Sci. USA 118, e2105646118. https:///10.1073/pnas.

2105646118.

11. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez,

A.N., Kaiser, q., and Polosukhin, I. (2017). Attention is all you need. Adv.

Neural Inf. Process. Syst. 30.

12. Hassid, M., Peng, H., Rotem, D., Kasai, J., Montero, I., Smith, N.A., and

Schwartz, R. (2022). How much does attention actually attend? Questioning the Importance of Attention in Pretrained Transformers. Preprint at arXiv. https:///10.48550/arXiv.2211.03495.

13. Tay, Y., Dehghani, M., Abnar, S., Shen, Y., Bahri, D., Pham, P., Rao, J.,

Yang, L., Ruder, S., and Metzler, D. (2020). Long range arena: A benchmark for efficient transformers. Preprint at arXiv. https:///10.

48550/arXiv.2011.04006.

14. Bzdok, Danilo, and Yeo, B.T.T (2017). Inference in the age of big data:

Future perspectives on neuroscience. Neuroimage 155, 549–564.

15. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., and Metzler, D. (2022). Emergent abilities

of large language models. Preprint at arXiv. https:///10.48550/arXiv.2206.07682.

16. OpenAI. (2023). GPT-4 Technical Report. Preprint at arXiv. https:///

10.48550/arXiv.2303.08774.

17. Kaplan, J., McCandlish, S., Henighan, T., Brown, T.B., Chess, B., Child, R.,

Gray, S., Radford, A., Wu, J., and Amodei, D. (2020). Scaling laws for neural language models. Preprint at arXiv. https:///10.48550/arXiv.

2001.08361.

18. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix,

T., Rozie`re, B., Goyal, N., Hambro, E., and Azhar, F. (2023). Llama:

Open and efficient foundation language models. Preprint at arXiv.

https:///10.48550/arXiv.2302.13971.

19. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D.d.L., Hendricks, L.A., Welbl, J., and Clark, A. (2022).

Training compute-optimal large language models. Preprint at arXiv.

https:///10.48550/arXiv.2203.15556.

20. Schaeffer, R., Miranda, B., and Koyejo, S. (2023). Are emergent abilities of

Large Language Models a mirage?. Preprint at arXiv. https:///10.

48550/arXiv.2304.15004.

21. Caballero, E., Gupta, K., Rish, I., and Krueger, D. (2022). Broken neural

scaling laws. Preprint at arXiv. https:///10.48550/arXiv.2210.14891.

22. Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., De Laroussilhe, Q.,

Gesmundo, A., Attariyan, M., and Gelly, S. (2019). Parameter-efficient

transfer learning for NLP. PMLR 97, 2790–2799. https://r.

press/v97/houlsby19a/houlsby19a.pdf.

23. Pfeiffer, J., Ruckle € ´ , A., Poth, C., Kamath, A., Vulic, I., Ruder, S., Cho, K.,

and Gurevych, I. (2020). Adapterhub: A framework for adapting transformers. Preprint at arXiv. https:///10.48550/arXiv.2007.07779.

24. Bapna, A., Arivazhagan, N., and Firat, O. (2019). Simple, scalable adaptation for neural machine translation. Preprint at arXiv. https:///10.

48550/arXiv.1909.08478.

25. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I.

(2019). Language models are unsupervised multitask learners. OpenAI

blog 1, 9.

26. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P.,

Neelakantan, A., Shyam, P., Sastry, G., and Askell, A. (2020). Language

models are few-shot learners. Adv. Neural Inf. Process. Syst. 33,

1877–1901.

27. Xiang, J., Tao, T., Gu, Y., Shu, T., Wang, Z., Yang, Z., and Hu, Z. (2023).

Language Models Meet World Models: Embodied Experiences Enhance

Language Models. Preprint at arXiv. https:///10.48550/arXiv.

2305.10626.

28. Berglund, L., Tong, M., Kaufmann, M., Balesni, M., Stickland, A.C., Korbak, T., and Evans, O. (2023). The Reversal Curse: LLMs trained on 'A is

B' fail to learn 'B is A'.. Preprint at arXiv. https:///10.48550/arXiv.

2309.12288.

29. Brandes, N., Goldman, G., Wang, C.H., Ye, C.J., and Ntranos, V. (2023).

Genome-wide prediction of disease variant effects with a deep protein language model. Nat. Genet. 55, 1512–1522. https:///10.1038/

s41588-023-01465-0.

30. Cui, H., Wang, C., Maan, H., and Wang, B. (2023). scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI.

Preprint at bioRxiv. https:///10.1101/2023.04.30.538439.

31. Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O.,

Tunyasuvunakool, K., Bates, R., Zı ´dek, A., Potapenko, A., et al. (2021) Highly accurate protein structure prediction with AlphaFold. Nature 596,

583–589. https:///10.1038/s41586-021-03819-2.

32. Rives, A., Meier, J., Sercu, T., Goyal, S., Lin, Z., Liu, J., Guo, D., Ott, M.,

Zitnick, C.L., Ma, J., and Fergus, R. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proc. Natl. Acad. Sci. USA 118, e2016239118. https:///

10.1073/pnas.2016239118.

33. Yang, E., Milisav, F., Kopal, J., Holmes, A.J., Mitsis, G.D., Misic, B., Finn,

E.S., and Bzdok, D. (2023). The default network dominates neural responses to evolving movie stories. Nat. Commun. 14, 4197. https://doi.

org/10.1038/s41467-023-39862-y.

34. Ye, Z., Liu, Y., and Li, Q. (2021). Recent Progress in Smart Electronic Nose

Technologies Enabled with Machine Learning Methods. Sensors 21, 7620.

https:///10.3390/s21227620.

35. Alayrac, J.-B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., Lenc,

K., Mensch, A., Millican, K., and Reynolds, M. (2022). Flamingo: a visual

language model for few-shot learning. Adv. Neural Inf. Process. Syst.

35, 23716–23736.

36. Sharma, P., Ding, N., Goodman, S., and Soricut, R. (2018). Conceptual

captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. Proceedings of the 56th Annual Meeting of the Association

for Computational Linguistics. https:///P18-1238/.

37. Thomee, B., Shamma, D.A., Friedland, G., Elizalde, B., Ni, K., Poland, D.,

Borth, D., and Li, L.-J. (2016). YFCC100M: The new data in multimedia

research. Commun. ACM 59, 64–73.

38. Zhou, Y., Chia, M.A., Wagner, S.K., Ayhan, M.S., Williamson, D.J.,

Struyven, R.R., Liu, T., Xu, M., Lozano, M.G., Woodward-Court, P., et al.

(2023). A foundation model for generalizable disease detection from retinal

images. Nature 622, 156–163.

39. Wagner, S.K., Hughes, F., Cortina-Borja, M., Pontikos, N., Struyven, R.,

Liu, X., Montgomery, H., Alexander, D.C., Topol, E., Petersen, S.E., et al.

(2022). AlzEye: longitudinal record-level linkage of ophthalmic imaging

and hospital admissions of 353 157 patients in London, UK. BMJ open

12, e058552.

40. Weininger, D. (1988). SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. J. Chem. Inf.

Comput. Sci. 28, 31–36.

41. Bzdok, D., and Ioannidis, J. P. (2019). Exploration, inference, and prediction in neuroscience and biomedicine. Trends in neurosciences 42,

251–262.

42. Bzdok, D., Engemann, D., and Thirion, B. (2020). Inference and prediction

diverge in biomedicine. Patterns 1, 100119.

43. Shanahan, M., McDonell, K., and Reynolds, L. (2023). Role play with large

language models. Nature 623, 493–498. https:///10.1038/s41586-

023-06647-8.

44. Sharma, A., Kumar, R., Ranjta, S., and Varadwaj, P.K. (2021). SMILES to

smell: decoding the structure–odor relationship of chemical compounds

using the deep neural network approach. J. Chem. Inf. Model. 61,

676–688.

45. Ballentine, G., Friedman, S.F., and Bzdok, D. (2022). Trips and neurotransmitters: Discovering principled patterns across 6850 hallucinogenic experiences. Sci. Adv. 8, eabl6989.

46. Wu, C., Zhang, X., Zhang, Y., Wang, Y., and Xie, W. (2023). Pmc-llama:

Further finetuning llama on medical papers. Preprint at arXiv. https://doi.

org/10.48550/arXiv.2304.14454.

47. Rodziewicz, T.L., Houseman, B., and Hipskind, J.E. (2023). Medical Error

Reduction and Prevention. In StatPearls (StatPearls Publishing LLC.).

48. Hipp, R., Abel, E., and Weber, R.J. (2016). A Primer on Clinical Pathways.

Hosp. Pharm. 51, 416–421. https:///10.1310/hpj5105-416.

49. Acosta, J.N., Falcone, G.J., Rajpurkar, P., and Topol, E.J. (2022). Multimodal biomedical AI. Nat. Med. 28, 1773–1784. https:///10.1038/

s41591-022-01981-2.

62. Poldrack, R.A. (2006). Can cognitive processes be inferred from neuroimaging data? Trends Cogn. Sci. 10, 59–63. S1364-6613(05)00336-

0 [pii]. https:///10.1016/j.tics.2005.12.004.

63. Laird, A.R., Fox, P.M., Eickhoff, S.B., Turner, J.A., Ray, K.L., McKay, D.R.,

Glahn, D.C., Beckmann, C.F., Smith, S.M., and Fox, P.T. (2011). Behavioral interpretations of intrinsic connectivity networks. J. Cogn. Neurosci.

23, 4022–4037. https:///10.1162/jocn_a_00077.

64. Mesulam, M.M. (1998). From sensation to cognition. Brain 121 (Pt 6),

1013–1052.

65. Voytek, B. (2022). The data science future of neuroscience theory. Nat.

Methods 19, 1349–1350. https:///10.1038/s41592-022-01630-z.

66. Brainstorm Consortium, Anttila, V., Bulik-Sullivan, B., Finucane, H.K., Walters, R.K., Bras, J., Duncan, L., Escott-Price, V., Falcone, G.J., Gormley,

P., et al. (2018). Analysis of shared heritability in common disorders of

the brain. Science 360, eaap8757. https:///10.1126/science.

aap8757.

67. Beam, E., Potts, C., Poldrack, R.A., and Etkin, A. (2021). A data-driven

framework for mapping domains of human neurobiology. Nat. Neurosci.

24, 1733–1744. https:///10.1038/s41593-021-00948-9.

68. Wittgenstein, L. (1958). Philosophical Investigations (Basil Blackwell).

69. Naisbitt, J. (1988). Megatrends: ten new directions transforming our lives

(Warner Books).

70. Dziri, N., Milton, S., Yu, M., Zaiane, O., and Reddy, S. (2022). On the origin

of hallucinations in conversational models: Is it the datasets or the

models?. Preprint at arXiv. https:///10.48550/arXiv.2204.07931.

71. Strubell, E., Ganesh, A., and McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Preprint at arXiv. https:///10.

48550/arXiv.1906.02243.

72. Nadeem, M., Bethke, A., and Reddy, S. (2020). StereoSet: Measuring stereotypical bias in pretrained language models. Preprint at arXiv. https://

/10.48550/arXiv.2004.09456.

73. Liu, F., Bugliarello, E., Ponti, E.M., Reddy, S., Collier, N., and Elliott, D.

(2021). Visually grounded reasoning across languages and cultures. Preprint at arXiv. https:///10.48550/arXiv.2109.13238.

关于TCCI

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute，TCCI）是由陈天桥、雒芊芊夫妇私人出资10亿美元创建的，旨在聚焦AI＋脑科学，支持、推进全球范围内脑科学研究，造福全人类，目前已经成为知名的支持人类脑科学研究的科研机构。

TCCI一期投入5亿元人民币支持中国的脑科学研究，与上海周良辅医学发展基金会合作成立上海陈天桥脑健康研究所（又名TCCI转化中心），致力于提升脑健康和脑疾病治疗研究和成果转化。后又与华山医院、上海市精神卫生中心等建立战略合作，设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室。在国际上，TCCI与加州理工学院合作成立TCCI加州理工研究院，设脑机接口、社交与决策神经科学、系统神经科学、分子与细胞神经科学、大脑成像、神经科学教育等多个中心，重点关注大脑基础研究。TCCI还在北美、亚洲、欧洲、大洋洲主办、资助了200多场高质量的学术会议。

追问互动