分享

重磅长文:言语脑机接口概述 | Nature子刊

 脑机接口社区 2024-06-26 发布于北京

瘫痪后的语言丧失是毁灭性的,但通过解码完整皮质活动绕过运动通路损伤,有望恢复自然交流。近期研究表明,语音产生的关键在于声道发音和运动规划皮质表征的协调活动。文章讲述了这些进展及其在语音解码中的应用,首先植入于癫痫监测电极的个体中,随后在瘫痪患者中的早期临床试验。这些研究利用高时空分辨率神经接口和先进的语音计算算法,在将神经活动解码为文本、可听语音和面部动作等方面取得的显著进展。尽管恢复自然语言是长期目标,现有语言神经假体的通信速率已超越当前辅助通信技术。研究人员提出了速度和准确性等关键评估指标,以标准化跨研究的成果,并强调进一步探索言语和语言多维特征空间的重要方向,预示着临床可行的语音神经假体的加速进展。

言语神经假体是一种设备,利用算法将说话过程中的大脑活动转化为交流信号,例如文本、声学或伴随说话的面部动作。言语神经假体不仅可以使交流更加自然,还可以恢复可以传达含义的其他表达成分,如语调、音量和面部表情。言语神经科学、神经接口技术和机器学习的进步推动了临床可行的言语神经假体的实现。研究进一步加深了对言语特征皮层编码的理解,特别是对声道发声器官运动控制的理解,从而可以帮助依赖辅助和替代通信(Augmentative and alternative communication ,AAC)方法进行交流的不完全闭锁综合征患者,为将其皮层活动解码为文本的言语神经假体的发展奠定了基础。后续工作演示了将皮层活动直接解码为可听见的语音,并实现更通用、更快速的文本解码。

    神经性言语障碍影响沟通

在对话环境中,语音能够以大约150-200词/分钟的速度实现高效交流,这是由超过100条声道肌肉以毫秒级协调驱动实现的。语音不同于语言,前者指的是使用声道肌肉产生声音,而后者包括语义和句法等更广泛的内容。当前基于大脑活动的语音解码应用,主要旨在帮助肢体和声道瘫痪患者恢复交流能力。这些患者因疾病如肌萎缩侧索硬化症 (ALS) 和脑干中风导致下行运动神经元通路受损,无法使用典型的交流方式,如说话、写作和打字,且现有AAC技术往往缓慢而费力。

这些疾病会导致构音障碍,即对声道的神经肌肉控制受损,使得患者无法产生可理解的言语。在严重情况下,可能出现完全无法清晰表达的情况。然而,这些患者的大脑皮层神经元群通常保持完好,包含用于发音的运动表征。这为解码预期发音和发声提供了基础,即使这些运动命令无法到达声道。此外,语言障碍(如失语症)也会影响说话和理解能力,通常由颞上回superior temporal gyrus (STG),、缘上回supramarginal gyrus (SMG)和中央前回precentral gyrus等皮质区域的中风或神经退化引起。尽管尚不确定是否能从失语症患者的皮质中获得需要的发音,但这些神经表征的持续存在为未来的研究提供了可能性。

图1 言语的发音控制

    语音特征概述

腹侧感觉运动皮层(vSMC)和中央前回中部(midPrCG)的神经元控制声道运动以产生语音,这些运动与呼气协调,生成声波,如图1a所示。在自然对话中,发声、声学和语言特征对于信息传达至关重要。

发声特征涉及声道配置将气流转化为语音,声道肌肉在言语过程中迅速调整,如唇音、前舌音等(图1b),并可进一步区分为鼻音或部分/完全闭合音。通过成像技术和生物传感器或根据产生的声音,测量声道发声器官的位置及其轨迹(图1c)。

声学特征直接关联于可听语音,表现为声学波形或频谱图。波形包络线反映语音强度随时间变化,与语速、压力模式和响度相关(图1d)。梅尔频率标度用于可视化语音频谱图,强调人类感知的频带(图1e)。基频是重要的声学特征,由声带共振产生音高,通过波形周期估算。

语言特征涉及将音素组合成具语义的单词和句子。音素在语音解码中重要,因为它们提供了一种离散、低维的语音表示,可扩展生成更大词汇量。

    语音特征的皮质编码

在皮质延髓系统中,言语感觉运动皮层(SMC)是一个重要的区域,它参与了言语的神经控制。这个区域包括中央前回和中央后回(图 1a),它们编码了发音运动和声道配置等语音特征。此外,中央前回还在言语运动规划中起着关键作用。皮质延髓系统的其他部分,如中央后回和颞叶皮质,可能参与声学特征的编码和语音产生的目标形成。对于高阶语言特征的编码,如语义和句法,目前了解较少。然而,研究表明布罗卡区可能在词语检索和语法方面发挥作用。细胞水平的研究显示,手部和口面皮层的前中央前回包含单个神经元,可以调节多种声道发声器官的运动。总之,对于理解言语的神经机制以及治疗言语障碍疾病有重要意义。

    根据发音特征解码语音

语音神经假体的主要目标是将语音过程中产生的神经活动转化为通信单元,如文本、可听声音或口面运动(图2)。这需要选择适当的神经记录接口、目标语音特征以及最终解码的通信单元。本文将首先讨论用于捕获解码语音特征所需神经活动的神经记录接口,然后回顾两种常用的建模方法:文本解码和语音合成。

图2 根据神经活动解码语音

神经记录接口 理想的语音神经假体接口(图2a)应具备以下特征:1) 安全植入和移除,最小化神经组织损伤及患者风险;2) 具有足够的时空分辨率,支持高性能语音解码;3) 能在多年内稳定获取神经信号。这些特征将推动语音解码系统从研究走向临床应用。

非侵入性技术如EEG、MEG和功能性MRI无需手术且安全,EEG和MEG时间分辨率高但空间特异性低,功能性MRI则相反。尽管这些技术能解码有限词汇和语义内容,但其便携性和时空分辨率限制了更大词汇量和长语段的解码。侵入式记录技术通过植入电极直接记录皮层电位,提供高时空分辨率,但涉及麻醉、开颅和感染风险。MEA插入皮层组织内,ECoG电极放置在大脑表面,不穿透脑膜。

皮质内MEA记录神经元活动,ECoG电极放置在皮质表面记录局部场电位。两者均用于语音解码和言语神经假体。尽管存在一些稳定性和信号处理方面的挑战,它们在临床上具有潜力。

根据神经活动建模语音特征

文本解码和语音合成是语音解码系统的常用输出。文本解码器预测字符、音素、单词或句子(图 3b),语音合成则解码声学特征如梅尔频谱图和音高并生成声学波形(图 3c)。在文本解码方面,首先介绍正常说话者的研究,这些研究展示了从皮质活动中解码音素、单词和句子的方法,然后探讨了其在声道麻痹患者中的应用,并重点介绍了高性能解码大词汇量句子的最新研究。对于语音合成,先讨论在正常说话者中的方法开发,然后其在声道麻痹患者中的应用。最后,探讨了解码发声的独立方法。

文本解码

一种文本解码方法是将神经活动分类为预定义词汇表中的单词或句子。这种方法成功应用于问答对话环境,但受到了预定义词汇量的限制。为了扩展到更大的词汇量,一些研究借鉴了自动语音识别(ASR)领域的方法,使用子词语言单位(如音素或字符)进行解码。通过训练语言模型来将解码的音素或字符序列转换为句子(图2b),可以实现对更大词汇量的解码。一些研究还使用联结时间分类(CTC)损失来训练循环神经网络(RNN)在句子生成过程中解码来自大脑活动的字符序列。尽管这些方法取得了成功,但性能评估仍然使用错误率来衡量解码结果的准确性。

语音合成

另一种解码方法是从大脑活动中合成语音(图2c)。这种方法提供了更自然的控制和个性化声音,但比文本解码更具挑战,因为它不依赖语言模型。早期研究使用连接合成器,将神经活动与语音片段相关联,再拼接生成语音波形。这方法适用于小数据集,但未充分利用机器学习进展,依赖时间窗口相关性。

Angrick 等人和 Anumanchipalli 等人提出了一种两阶段的语音解码方法。第一阶段使用深度学习模型将神经活动(从 SEEG111 或 ECoG110 记录)转换为声学特征时间序列,例如梅尔频谱图(图2b)。第二阶段使用语音合成器将这些声学特征转换为听得见的语音波形(图2b)。这种方法因深度神经网络能够学习输入和输出之间的复杂非线性映射而表现出色。

Metzger 等人使用 CTC损失训练模型,将神经活动序列映射到离散声学语音单元,并在推理期间合成为整句语音,该方法适用于声道麻痹的个体(图2c)。个性化是语音神经假体的一大优势。语音转换模型可以将解码后的语音转换为与用户相似的波形,只需3秒的录音即可实现个性化。

此外,解码发音特征并将其转换为声学特征有助于提高合成语音的质量(图 3d)。这些发音特征还可以用于生成非语言的面部手势(图2d),以改善情感传达和清晰度。Metzger 等人展示了使用解码的发音特征制作个性化数字化身面部动画的可行性。

    评估和实施言语神经假体的最佳实践

过去十年,语音解码技术显著进步,可从正常和声道麻痹者的神经活动中提取信息。为确保评估性能和实施实用的语音神经假体,本节提出了关键指标,并讨论了扩展到实用系统的注意事项。

评估和标准化

评估声道麻痹患者的言语解码能力时,应将结果与疾病病因联系。由于多数早期研究涉及单个患者,比较结果需谨慎。相比之下,多人研究中的言语能力较为一致。尽管病因、目标和刺激集可能变化,但量化表现的指标和方法应标准化。

文本解码性能 在语音解码研究中,应仔细报告参与者的语音指令类型,如想象语音、默默尝试语音和尝试语音(图3a)。这些指令反映了参与者的意图语音,而非内心独白。当尝试说话时,构音障碍患者发出的声音通常难以理解,因其缺乏协调的声道控制(图3a)。此外,研究人员给出了建议的标准化语音神经假体的性能指标。

图3 评估和标准化言语神经假体

文本解码系统评估借鉴了 ASR 领域的 词错误率(word error rate,WER )、字符错误率(character error rate, CER)、音错误率(phoneme error rate)(图3b)。错误率应在长段文本上计算,以确保试验权重适当。专业级转录的 WER 标准为5%,25%以下可接受。语音神经假体应遵循这些标准,并在连续试验中计算错误率。

语言模型(如 GPT)通过重新评分提升解码性能,但需区分纯神经解码和语言模型改进的效果,分别计算有无语言模型的 CER 或 PER。

解码速度以每分钟解码词数(WPM)(图3b)衡量,从语音尝试开始到解码完成的时间计算。熟练说话者约为150 WPM,但声道麻痹患者的速度因人而异。目标是达到自然语速,比 AAC 的15 WPM 有显著改进。

语音合成性能 在评估神经语音合成系统(如 TTS 系统)时,梅尔倒谱失真(MCD)和词错误率(WER)是关键指标。MCD衡量频谱特征与解码波形间的失真,优于皮尔逊相关性,因为它更关注声音信息的准确传达。开放式 WER 提供了合成语音清晰度的指标,但在无法说话的人群中,因缺乏对齐语音数据,MCD 使用复杂,可用代理波形替代。ASR 计算的 WER 可作为补充。另一个重要指标是解码延迟,应定义为从语音尝试开始到音频输出的时间,并应保持在 200 毫秒以下,以减小听觉反馈延迟对语音控制的影响。

词汇指标 在语音合成和文本解码系统评估中,词汇量指标至关重要。根据 Zipf 定律,最常见的 1,000 个单词覆盖了英语口语的 85% 以上,但低频词仍然重要。因此,需报告训练、评估及词典定义时的唯一词数。大词汇量下逐词评估不可行,但在包含未见单词的评估集中实现高性能是关键指标(图3d)。长期目标是在自然句子上实现低于 5% 的 WER,包括未见过的单词,且需展示长期稳定性。

训练时间 在语音解码研究中,关键的训练时间指标有两个:一是实现25%和5% WER所需的训练数据量;二是维持性能无需重新训练的天数。这体现了性能与稳定性的权衡(图3e)。应报告系统相对于设备植入时间的持续时间,以了解系统寿命。这些指标用于监测语音神经假体的进展,理想情况下,这些系统在短期训练后即可使用,且日常无需重新校准。

言语神经假体的实际应用

本节讨论了实用语音神经假体的开发。它可以解码用户的神经活动并转换为自然对话,以满足用户的需求。该技术可以支持多种通信模式,如短语和拼写,并且可以根据用户的偏好进行定制。此外,解码器需要稳定或快速重新校准,以避免重新训练的不便,并且必须确保只识别用户主动发声(图3a)。这些原则也适用于其他机器学习应用。

    未来发展方向

综述中讨论了言语神经假体的发展,并提出了三个未来方向:深入理解大脑中语音产生的编码方式、改进工程技术以更好地采集和解码神经活动、扩展到不同言语丧失的患者群体。通过研究大脑中与语音相关的区域和神经元活动,可以加速言语神经假体的发展。同时,需要改进采样和解码技术,以实现在日常生活中使用的目标。此外,还需要考虑不同类型的言语障碍患者,如声道麻痹、构音障碍、失用症和失语症患者。这些方向将推动言语神经假体领域向恢复失去沟通能力的个体自然而富有表达力的交流目标迈进。

—— End ——

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多