【原】Nature子刊 | 非侵入性脑记录中连续语言的语义重建

脑机接口社区 2023-06-07 发布于北京

展开全文

从非侵入性记录中解码连续语言的脑机接口将有许多科学和实际应用。然而，目前，非侵入性语言解码器只能从一小部分单词或短语中识别刺激。本文介绍了一种利用功能磁共振成像(fMRI)记录的皮层语义表征来重建连续语言的非侵入性解码器。该解码器可以生成可理解的单词序列，恢复感知的语音、想象的语音甚至无声视频的意义。这项研究测试了整个大脑皮层的解码器，并发现连续的语言可以从多个区域单独解码。需要注意的是，由于脑机接口需要尊重心理隐私，解码成功需要受试者的合作。这项研究结果证明了非侵入性语言脑机接口的可行性。

本文介绍一种利用功能磁共振成像(fMRI)进行非侵入性脑记录并利用连续自然语言重建感知或想象刺激的解码器。为了实现这一目标，需要克服一个主要障碍：fMRI的低时间分辨率。虽然fMRI具有极好的空间特异性，但它测量的血氧水平依赖(BOLD)信号却很慢——神经活动的冲动导致BOLD在大约10s内上升和下降。对于自然口述语言来说，这意味着每个大脑图像可能会受到超过20个单词的影响。因此，解码连续语言需要解决病态逆问题，因为要解码的单词比大脑图像多得多。本研究的解码器通过生成候选词序列，对每个候选词诱发记录的大脑反应的可能性进行评分，然后选择最佳候选词来实现这一目标。

▲图1. 语言解码器。a，记录三名受试者听了16小时叙事故事时的BOLD fMRI反应。对每个受试者进行了编码模型估计，以从刺激词的语义特征预测大脑反应。b，为了从新的大脑记录中重构语言，解码器维护一组候选单词序列。当检测到新单词时，语言模型（LM）为每个序列提出续接，编码模型评分记录的大脑反应在每个续接下的可能性。保留最有可能的续接。c，对未用于模型训练的测试故事中记录的单次大脑反应进行解码器评估。示例手动选择和注释以演示典型的解码器行为。解码器精确重现一些单词和短语，并捕捉到更多的要点。d，测试故事的解码器预测与实际刺激词的相似性显著高于随机水平，符合一系列语言相似性度量。e，对于大多数时间点，解码分数显著高于随机水平，在BERTScore度量下表现最好。f，一个受试者的识别准确性。在(i, j)处的颜色反映了预测的第i秒与实际刺激的第j秒之间的相似性。识别准确性显著高于随机水平。

为了将单词序列与受试者的大脑反应进行比较，使用了一个编码模型，该模型可以预测受试者的大脑对自然语言的反应。当受试者听16小时自然说出的叙事故事时，记录了他们的大脑反应，并得到比典型语言fMRI实验多5倍的数据。试验过程提取了能够捕捉刺激短语含义的语义特征，并使用线性回归对语义特征如何影响大脑反应建模(图1a)，从而在这一数据集上训练编码模型。然后，编码模型可以通过测量记录的大脑反应与预测的大脑反应的匹配程度，对单词序列诱发记录的大脑反应的可能性进行评分。

理论上，可以通过将记录的大脑反应与对每个可能的单词序列进行编码的模型预测进行比较，从而确定最有可能的刺激单词。然而，可能的单词序列数量太大，这种方法不实用，而且这些序列中的绝大多数与自然语言不相似。为了将候选序列限制为结构良好的英语，使用了在大量自然英语单词序列数据集上训练的生成神经网络语言模型和波束搜索算法，该算法逐字生成候选序列。在波束搜索中，解码器在任何给定时间保持一个包含k个最可能的候选序列的波束。当基于听觉和言语区的大脑活动检测到新单词时(图2)，语言模型将之前解码的单词作为上下文，为波束中的每个序列生成延续。然后，编码模型对每次延续诱发记录到的大脑反应的可能性进行评分，并且最可能的k个延续在波束中保留到下一个时间步(图1b)。这个过程在任意一段时间内不断逼近最可能的刺激词。

▲图2. 编码模型和单词速率模型表现。与fMRI数据交互的两个解码器组件是编码模型和单词速率模型。a，通过预测对所感知的语音测试故事的大脑反应，并计算预测反应与实际单次反应之间的线性相关性，评估编码模型。b，编码模型训练的数据量不同。为了总结编码模型在皮层区域上的表现，相关性在用于解码的10,000个体素之间平均。编码模型的表现随着每个受试者收集的训练数据量的增加而提高。c，编码模型在被平均处理的不同重复的感知语音测试故事的大脑反应上进行测试，以人为地增加信噪比（SNR）。编码模型的表现随着平均反应数的增加而提高。d，单词速率模型训练的数据量不同。通过预测测试故事的单词速率，并计算预测和实际单词速率向量之间的线性相关性来评估单词速率模型。单词速率模型的表现随着每个受试者收集的训练数据量的略微增加。e，对于所感知的语音的大脑反应，针对听觉皮层的单词速率模型明显优于针对前额语音产生区域或随机抽取的体素的单词速率模型。f，对于想象语音的大脑反应，针对不同皮层区域进行的单词速率模型表现没有显着差异。对于所有结果，黑线表示受试者的平均值，误差线表示平均值的标准误差（n=3）。

结果

本研究为三名受试者训练解码器，并在受试者听不用于模型训练的新颖测试故事时，对每名受试者的解码器进行单独的、单次试验的大脑反应评估。结果表明，解码后的单词序列不仅捕获了刺激的意义，而且通常甚至捕获了确切的单词和短语，这表明可以从BOLD信号中恢复出细粒度的语义信息(图1c)。为了量化解码性能，使用几种语言相似性度量比较了一个测试故事(1839个单词)的解码和实际单词序列。单词错误率(WER)、BLEU和METEOR等标准指标衡量两个序列共享的单词数量。然而，由于不同的单词可以表达相同的意思——例如，“我们很忙”和“我们有很多工作”——使用了BERTScore，这是一种使用机器学习来量化两个序列是否具有相同含义的新方法。故事的解码性能在每个度量下都显著高于预期的偶然，尤其是BERTScore(图1d)。故事中的大多数时间点(72-82%)的BERTScore显著高于预期的随机时间点(图1e)，并且可以根据解码单词和实际单词的BERTScore相似性从其他时间点(平均百分位数= 0.85-0.91)识别(图1f)。

▲图3. 通过大脑皮层区域进行解码。a，一个受试者的大脑皮层区域。用于解码的大脑数据（彩色区域）被分为语音网络、顶、颞、枕联合区和前额皮层（PFC）区域。b，来自每个半球的每个区域的解码器预测，相对于大多数指标而言，都比预期的随机结果与刺激词更相似。误差条表示平均值的标准误差（n=3个受试者）。c，每个区域的一个受试者的解码性能时间序列。水平线表示在BERTScore指标下解码性能显著高于预期的概率的时间点。从整个大脑解码的大多数时间点也从联合和前额区域解码得到了显著结果。d，解码器预测在区域之间进行了比较。来自每一对区域的解码的单词序列都比预期的随机结果更相似。e，测试故事中的片段与每个半球的每个区域的解码器预测一起显示给一个受试者。这些结果表明，多个大脑皮层区域编码了自然语言的精细、一致和冗余的表示。Assoc表示联合；hem表示半球。

另外，本研究还使用行为实验测试了解码后的单词是否捕捉到了故事的原意。结果显示，在16个阅读理解问题中，只有阅读过解码后的单词的受试者可以回答9个。跨皮质区域解码图1所示的解码结果使用了多个皮质区域的反应，获得了良好的表现。为了回答使用解码器来研究语言是如何在这些区域中表示的，将大脑数据划分为之前在语言处理过程中表现活跃的三个宏观皮质区(语音网络、顶叶-颞叶-枕叶联合区和前额叶区)，并分别从每个半球的每个区域进行解码(图3a)。

为了测试一个区域是否以单词和短语的粒度编码语义信息，我们使用多种语言相似度指标评估了来自该区域的解码器预测。由于使用的解码器产生可解释的单词序列，因此可以直接评估每个区域代表刺激词的精确程度(图3b)。在WER和BERTScore指标下，所有区域的解码器预测与实际刺激词的相似性显著高于随机预期。在BLEU和METEOR指标下，除右侧大脑半球语音网络外，所有区域的解码器预测结果与实际刺激词的相似程度均显著高于预期结果。这些结果表明，多个皮质区域以单个单词和短语的粒度来代表语言。

为了确定始终参与语言处理的区域，计算了从每个区域显著解码的时间点的分数。我们发现，从全脑显著解码的大多数时间点可分别从关联(80 ~ 86%)和前额叶(46 ~ 77%)区域解码(图3c)，这表明这些区域始终代表语言中的单词和短语的意义。值得注意的是，在从全脑显著解码的时间点中，只有28-59%可以从语音网络解码。最后，评估了不同区域编码的语言表达之间的关系，直接比较了不同区域和半球的解码单词序列，发现每对预测之间的相似性显著高于随机预期(图3d)。这表明不同的皮质区域编码冗余的单词级语言表征。

总之，本研究结果表明，可以从全脑解码的单词序列也可以从多个单独区域一致解码(图3e)。这种冗余编码的一个实际含义是，未来的脑机接口即使有选择地从最易访问或最完整的区域进行记录，也可能获得良好的性能。

解码器应用和隐私影响

在之前的分析中，根据大脑对感知到的言语的反应训练和测试了语言解码器。为了展示我们的语义语言解码器的潜在应用范围，评估了根据感知到的语音的大脑反应训练的语言解码器可否用于解码对其他任务的大脑反应。

▲图4. 解码器的应用和隐私影响。a，为了测试语言解码器是否可以转换到想象的言语，被试在想象讲两次5个1分钟的测试故事的同时被解码。我们将解码器预测结果与来自同一受试者的独立记录的参考转录本进行了比较。识别准确性显示为一个受试者。每一行对应一次扫描，颜色反映了解码器预测和所有5个参考转录本之间的相似性。b、参考文本与一个主题的三个想象故事的解码器预测一起展示。c，为了测试语言解码器是否可以跨模态转换，被试在观看四部无声短片时被解码。解码器预测与影片显著相关。d，测试解码器是否被专注力调制，受试者在一个多说话者刺激中注意到女性说话者或男性说话者。解码器预测与有人参与的故事比与无人参与的故事更相似。e，为了测试解码是否可以在没有来自特定受试者的训练数据的情况下成功，解码者接受了来自5组其他受试者(由标记表示)的与解剖学一致的大脑反应的训练。跨学科解码器的表现几乎高于偶然性，并且明显低于学科内解码器，这表明学科内训练数据是至关重要的。f，为了测试解码是否可以被有意识地抵制，被试者默默地完成三个抵抗任务:数数、给动物命名和讲一个不同的故事。解码性能与被动倾听任务相比较。给动物命名和讲不同的故事显著降低了每个皮质区域的解码性能，这表明解码是可以被抵制的。标记表示个体受试者。不同的实验不能基于故事解码分数进行比较，这取决于刺激长度。

想象语音解码：脑-机接口的一个关键任务是在没有外部刺激的情况下解码隐蔽的想象语言。为了测试我们的语言解码器能否用于解码想象中的语言，受试者在fMRI记录下的同时想象讲述5个1分钟的故事，并在扫描仪外分别讲述相同的故事以提供参考文本。对于每一次1分钟的扫描，我们通过解码扫描正确识别出被试正在想象的故事，将解码器预测和参考转录本之间的相似性评分归一化为概率，并选择最可能的转录本(图4a)。在整个故事中，解码器的预测与相应的转录本的相似程度显著高于随机预期。定性分析表明，解码器可以恢复想象刺激的意义(图4b)。为了使解码器跨任务迁移，目标任务必须与训练任务共享表示。编码模型经过训练，可以预测受试者的大脑会对感知到的语音做出何种反应，因此解码器的明确目标是生成能够在受试者听到时唤起记录下来的大脑反应的单词。

跨通道解码：语义表征也在语言感知和一系列其他知觉和概念过程之间共享，这表明与之前主要使用运动或听觉信号的语言解码器不同，本研究的语义语言解码器可能能够从大脑对非语言任务的反应中重建语言描述。为了测试这一点，被试者观看了四部没有声音的短片，同时用fMRI记录，记录的反应用语义语言解码器解码。将解码后的单词序列与视障人士对电影的语言描述进行了比较，发现它们显著地比预期的偶然性更相似，解码序列准确地描述了影片中的事件(图4c)。这表明，在语言感知期间训练的单个语义解码器可用于解码一系列语义任务。

专注力对解码的影响：因为语义表征受专注力调节，所以本研究的语义解码器应该选择性地重建被关注的刺激。为了测试专注力对解码的影响，受试者听了两个重复的多人刺激，这个刺激是由男女说话者讲的两个故事叠加而成的。在每次演讲中，受试者被提示去听不同的演讲者。解码器预测与在场故事的相似性显著高于与无人在场故事的相似性，表明解码器选择性地重建了出席刺激(图4d)。这些结果表明，语义解码器可以在具有多个信息源的复杂环境中表现良好。此外，这些结果表明，被试着对解码器的输出具有有意识的控制，并表明语义解码器只能重建被试正在积极关注的内容。

隐私的影响：语义解码技术存在一个重要的伦理问题，即可能危及心理隐私。为了测试是否可以在没有被试的合作下训练解码器，尝试使用从其他被试的数据训练解码器来解码每个被试的感知语音。为此，本研究收集了七个被试听取5小时叙述性故事的数据，并使用容积和基于表面的方法在被试之间进行了解剖对齐。在跨被试数据上训练的解码器的表现仅略高于随机猜测。这表明，被试的合作仍然是解码器训练的必要条件（图4e）。

为了测试经过人的合作训练的解码器之后是否会被有意识地抵制，让受试者在听叙述故事的片段时，默想三个认知任务——计算（“七次循环计数”）、语义记忆（“命名和想象动物”）和想象的言语（“讲一个不同的故事”）。结果发现，相对于被动听取基线的每个大脑区域的解码表现，进行语义记忆和想象言语任务会显著降低。这表明，在对抗性场景中，语义解码可以被有意识地抵制，而这种抵制不能仅仅通过集中解码器于特定的大脑区域来克服（图4f）。

▲图5. 解码错误的来源。a，限制解码性能的潜在因素。b，为了测试解码性能是否受到训练数据集大小的限制，解码器被训练使用不同数量的数据。每次训练数据集大小加倍，解码分数似乎都会增加相同的数量。c，为了测试解码性能是否受到测试数据中的噪声的限制，通过对测试故事的多次重复取平均来人工提高了测试响应的信噪比。解码性能略微随平均响应数增加而提高。d，为了测试解码性能是否受到模型误差规范的限制，将单词级别的解码分数与行为评分和数据集统计数据进行了比较，标记表示个体受试者。e，解码性能与单词具体性显著相关，表明模型误差规范有助于解码错误。解码性能与训练刺激中单词频率不显著相关，表明模型误差规范不是由于训练数据中的噪声引起的。LM，语言模型。

为了确定潜在的改进途径，评估了语言感知过程中的解码错误是否反映了fMRI记录与本研究模型的局限性(图5a)。BOLD fMRI记录通常信噪比较低。在模型估计过程中，可以通过增加数据集的大小来减少训练数据中噪声的影响。为了评估解码性能是否受到训练数据集大小的限制，使用不同数量的数据训练了解码器。每次将训练数据集的大小增加一倍，解码分数似乎都会增加等量(图5b)。这表明，对更多数据进行训练将提高解码性能。测试数据中的低信噪比也可能限制可解码的信息量。为了评估单次试验fMRI信噪比的未来改善是否可能改善解码性能，本研究中人为地提高了信噪比，方法是对测试故事不同重复过程中收集的大脑反应进行平均。解码性能随着平均响应数的增加而略有提高(图5c)，这表明解码错误的某些成分反映了测试数据中的噪声。

为了评估解码性能是否受到模型错误规范(例如使用次优特征来表示语言刺激)的限制，测试了解码错误是否遵循系统模式。对6个测试故事中每个单词的解码情况进行评分，并将评分与行为单词评级和数据集统计进行比较。如果解码错误仅仅是由测试数据中的噪声引起的，那么所有的单词都应该受到同等的影响。然而，我们发现解码性能与单词具象性的行为评级显著相关，这表明解码器在恢复具有一定语义属性的单词方面较差(图4d)。值得注意的是，解码性能与训练刺激中的词频没有显著相关性，这表明模型的错误描述主要不是由训练数据中的噪声引起的(图5e)。研究结果表明，除了训练和测试数据中的随机噪声外，模型错误规范是解码错误的主要来源。

讨论

本研究表明，感知和想象的刺激的意义可以从BOLD信号解码为连续的语言，标志着非侵入性脑机接口的重要一步。虽然之前的研究表明，BOLD信号包含丰富的语义信息，但本研究结果表明，这些信息是在单个单词和短语的粒度上捕获的。为了重建这些信息，本研究的解码器依赖于两项创新，这两项创新可以解释语言的组合结构:使用自回归先验来生成新的序列，以及使用波束搜索算法来高效地搜索最佳序列。总之，这些创新使得从相对缓慢的大脑信号中解码结构化的序列信息成为可能。

本研究中的解码器与大多数现有的语言解码器不同，因为它使用语义特征而不是运动特征来表示语言，主要使用在语言感知过程中编码语义表示的区域的数据。与运动特征不同，语义特征在尝试言语和想象言语时都可以被访问，并且在语言和一系列其他认知任务之间是共享的。此跨任务传输可能实现新的解码器应用。然而，本研究也发现，语义特征可能会失去特异性，导致解码器转述实际的刺激。运动特征能够更好地区分实际的刺激和它的解释，因为它们与刺激的表面形式直接相关。另外，本研究还讨论了隐私问题，隐私分析表明，目前训练和应用解码器都需要主体合作。此外，在没有受试者合作以及出于恶意的目的等其他不可预见的原因，提高了研究者对大脑解码技术风险的认识，制定保护每个人精神隐私的政策也是至关重要的。

参考：

Semantic reconstruction of continuous language from non-invasive brain recordings

—— End ——

仅用于学术分享，若侵权请留言，即时删侵！