分享

杭电脑机协同智能团队:用于细粒度脑语义解码的视觉引导双空间交互网络

 脑机接口社区 2024-12-27 发布于北京

近日,杭州电子科技大学脑机协同智能团队最新研究成果“Visual guided Dual-spatial Interaction Network for Fine-grained Brain Semantic Decoding”论文发表在国际TOP学术期刊《IEEE Transactions on Instrumentation and Measurement》上。

文章链接:https://ieeexplore./document/10716707

大脑语义解码在计算机视觉和神经科学领域备受关注,但现有粗粒度解码工作往往忽视了大脑信号的稀疏性问题和深层次隐含语义解析挑战,导致大脑解码能力极大受限。为解决这一问题,本文提出了一种视觉引导的双空间交互网络(VDIN),通过多路径视觉信息引导(包括文本和图像),构建一种细粒度大脑语义解码框架。具体而言,本文首先设计了局部双空间交互模块,借助包含丰富语义信息的文本感知空间,探索大脑与文本之间的显式和隐式语义相关性。同时,该模块利用更高分辨率的图像感知空间,可以有效挖掘大脑与图像之间的多层次语义相关性。在此基础上,本文提出的全局双空间交互模块通过进一步整合并优化局部语义相关性,从而得到综合且全面的全局综合语义表征。这一方法增强了对视觉信息与大脑信号一致性及互补性的建模能力,从而为现有大脑语义解码工作提供了一种可行和可借鉴的更加细粒度且具有更强表达力的大脑语义解码新方案。

研究背景

在计算机视觉与神经科学领域,EEG(脑电图)作为一种非侵入式测量方法,已广泛应用于脑活动分析,特别是在视觉诱发脑活动的研究中。图像作为视觉刺激材料能够引发大脑的相应活动,这些活动通过EEG信号记录下来,如图1所示,EEG信号反映了大脑对视觉刺激的响应,进而可以被解码模型用来提取语义信息。

图1:视觉诱发大脑语义解码任务

尽管脑电信号可以有效学习得到本征语义信息,对于人类的认知过程具有不可替代的价值,但是脑电感知空间的空间分辨率过低,只能通过隐式的方式学习得到较为抽象的语义信息,在极大程度上限制了对语义的深层次解析能力。相比于脑电信号,视觉信号的高分辨率感知空间则能够从多个维度上解析得到丰富的显式语义信息,但无法有效满足现实场景中的复杂语义解析需求。因此,现有语义解码工作的问题在于,如何结合脑电信号的本征语义解析优势以及视觉信号的多维显式语义解析优势,利用视觉信号从多个维度充分引导和激发脑电信号的深层次、本征和综合的语义解析能力,从而提升对于复杂任务的语义理解能力,同时使得未来基于AI的大脑语义解码工作在一定程度上能够摆脱采集设备和复杂框架设计的限制。

为了克服以上问题,本文提出了一种视觉引导的双空间交互网络(VDIN)。该方法通过结合文本和图像的丰富多模态信息,在局部和全局两个层次上和大脑信号进行综合的细粒度语义交互。在局部交互层面上,本文聚焦于如何利用语义丰富的文本感知空间来高效探索大脑信号和文本模态之间的显式和隐式耦合语义相关性,以及利用高分辨率图像感知空间来探索大脑信号和图像模态之间的多层次语义相关性。而全局交互模块则将可以将局部语义信息进一步高效整合为更为综合丰富的全局语义表征,从而得到一种细粒度的大脑和视觉联合语义解码方案。通过这种方法,即使EEG信号的通道较少,模型也能保持较高的鲁棒性,突破了传统方法的局限,为大脑语义解码工作提供一种新的研究视角和解决方案。

研究方法

视觉引导的双空间交互网络(VDIN)通过视觉空间与大脑空间的紧密结合,实现了细粒度的大脑语义解码。首先,对原始图像采用文本描述方法得到对应的文本表示,并利用注意力机制提取显式语义信息。接着,通过卷积神经网络和位置嵌入构建得到高分辨率图像表征空间。对于EEG信号,则采用深度可分离卷积提取时序和跨通道特征,获得大脑空间的隐式语义信息。接着,通过视觉引导的局部语义耦合模块,将高分辨率图像表征空间和语义丰富文本表征空间与大脑感知空间进行多模态语义交互。最后,通过全局语义耦合模块进一步整合局部语义相关性,从而增强大脑和视觉之间的语义一致性和互补性学习,从而突破大脑语义解码的局限性以及提高大脑语义解码的性能。

图2:VDIN模型中的视觉空间与大脑空间双空间交互操作

在训练过程中同时进行视觉引导的局部双空间交互过程和视觉引导的全局双空间交互过程。整体模型训练的损失函数由双空间交互损失和分类损失组成。具体来说,视觉引导的局部交互损失通过跨模态的语义耦合操作来学习视觉空间(图像和文本)与大脑空间之间的语义相关性,从而优化大脑空间的表示。视觉引导的全局交互损失进一步整合视觉空间和文本空间中的显性和多层次语义相关性,来优化大脑空间的语义表示。同时,分类损失基于模型预测和真实标签之间的差异,使得模型进行更准确的分类。最终,模型的总损失对应于以下公式:

该训练过程通过最小化整体损失来优化模型的学习,以实现更高效的跨模态语义解码。

实验分析

表1: EEGCVPR40数据集上的性能比较

本实验采用了EEGCVPR40数据集来评估所提出的VDIN模型。该数据集包含六个参与者的EEG记录(1000 Hz采样频率,128个EEG通道)和来自ImageNet的视觉刺激图像(40类,每类50张图像)。每个参与者在四个实验中观看500张图像,每张图像的展示时间为0.5秒,生成的EEG数据包含500个数据点(0.5秒 × 1000 Hz)。实验结果表明,VDIN在所有频带(全频带、高伽马、贝塔-伽马)下均超过了EfficienNet-Network模型和EEGClip模型的实验结果。VDIN在全频带对比实验中相较于EfficienNet-Network模型提高了15.97%的性能。此外,为了进一步验证模型的性能,我们通过5-fold、7-fold和10-fold交叉验证对模型进行了评估。实验结果表明,VDIN在10-fold交叉验证下表现最佳。值得注意的是,在只包含69个或99个大脑信号通道数据的情况下,视觉引导下的大脑语义解码结果仍显著优于非视觉引导的大脑语义解码。这表明视觉引导机制在低空间分辨率大脑信号数据(EEG数据)中的有效性。同时,VDIN在不同EEG频带和通道设置下均取得了优异的任务性能,进一步验证了其在大脑和视觉的一致性和互补性分析方面的优势。

结论

本文提出了一种新型的视觉引导双空间交互网络(VDIN),通过视觉语义空间的多层次和综合引导,得到一种细粒度大脑语义解码新方案。与现有方法相比,该方法利用文本空间中的丰富语义解析优势,完成大脑和文本空间之间的显式和隐性语义相关性提取;同时,借助了图像空间的高分辨率优势,高效完成大脑和图像空间的多层次语义相关性挖掘。这种双重引导机制显著提升了大脑表征空间的深层次和本征语义的精准和高效解析能力。因此,所提出的视觉引导下的双空间交互方法为AI驱动下的大脑精准语义解码提供了新的解决方案,使得现有大脑语义解码依赖于高效的视觉感知策略,而非复杂且冗余的架构设计。

作者:唐佳佳,杨宇涛,赵启斌,丁彧,张建海,宋扬,孔万增(通讯作者)

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多