论文:https:///virtual/2025/poster/30544 从脑活动中重建人类动态视觉是一项极具科学意义的挑战性任务。尽管现有的视频重建方法已取得显著进展,但仍存在一些局限性,包括:(1)难以同时协调语义信息(如类别描述)、结构信息(如大小和颜色)以及一致的运动信息(如帧顺序);(2)功能性磁共振成像(fMRI)的时间分辨率较低,难以从单帧fMRI数据中解码多帧视频动态;(3)依赖视频生成模型,导致难以确定重建视频中的动态信息是真正源于fMRI数据,还是生成模型的幻觉。 为克服这些局限性,本研究提出了一种名为 Mind-Animator 的两阶段模型。在 fMRI到特征 阶段,从fMRI数据中解耦语义、结构和运动特征。具体而言,采用fMRI-视觉-语言三模态对比学习解码语义特征,并设计了一种稀疏因果注意力机制,通过下一帧预测任务解码多帧视频运动特征。在特征到视频 阶段,这些特征通过膨胀的StableDiffusion模型整合为视频,有效消除了外部视频数据的干扰。在多个视频-fMRI数据集上的广泛实验表明,模型实现了最先进的性能。全面的可视化分析进一步从神经生物学角度阐明了模型的可解释性。 本研究的贡献如下: (1)方法创新:提出了Mind-Animator,首次通过从fMRI数据中解耦语义、结构和运动信息实现视频重建。针对fMRI与视频数据时间尺度不匹配的问题,设计了基于稀疏因果注意力的一致性运动生成器,通过下一帧预测任务解码细微但显著的运动模式。 (2)可解释性:采用逐体素和逐ROI可视化技术,从神经生物学角度阐明了模型各个组件的可解释性。 (3)全面评估:引入了八项评估指标,在三个公开的视频-fMRI数据集上,从语义、结构和时空一致性三个维度全面评估了本研究提出的模型及所有先前模型的重建效果,为后续研究建立了首个统一基准。团队已经公开所有重建结果和代码,以促进未来研究。 01研究背景与论文简介 认知神经科学的进展为大脑功能研究提供了新视角,并可能推动人工智能的发展。其中,神经解码是研究的关键方向之一,它将视觉刺激与功能性磁共振成像(fMRI)脑记录联系起来。神经解码方法包括分类、识别和重建,而本研究聚焦于最具挑战性的方向:重建。 ![]() 以往的方法在静态刺激图像的分类和识别方面取得了显著进展。一些研究甚至能够从脑信号中重建出与原始刺激图像高度相似的图像。然而,现实生活中的视觉刺激大多是连续且动态的,因此从脑信号中重建视频逐渐成为研究热点。基于此前从fMRI中解耦语义和结构信息以重建图像的研究,本研究认为,当视觉刺激从静态图像转向动态视频时,必须考虑三个维度:语义、结构和运动,以反映大脑对动态视觉信息的处理。 由于fMRI依赖于缓慢的血氧水平依赖(BOLD)信号,神经活动在超过10秒(约300视频帧)的时间窗口内被整合,这给捕捉快速运动动态带来了根本性挑战,使得从fMRI信号重建视频的任务变得异常困难。 图2:本工作和以往工作的范式区别 为应对这一挑战,Nishimoto等人将视频重建任务转化为识别任务,通过预定义视频库检索视频。随后,Han等人、Wen等人和Wang等人将大脑响应映射到深度神经网络(DNN)的特征空间以重建视频刺激。为缓解视频-fMRI数据的稀缺性,Kupershmidt等人利用自监督学习引入大量未配对视频数据。尽管这些研究证实了从fMRI重建视频的可行性,但其结果在显式语义信息方面存在明显不足。最近,Chen等人通过对比学习将fMRI映射到CLIP表示空间,并结合视频生成模型,首次成功重建了具有清晰语义信息的连贯视频。然而,这些研究未考虑颜色和位置等结构信息,且无法确定重建视频中的运动信息是否真正源于fMRI数据,还是来自视频生成模型的外部数据。总结来说,当前视频重建模型面临两大挑战: (1)无法同时捕捉重建视频中的语义、结构和运动信息。 (2)对外部视频数据集和视频生成模型的依赖,导致无法确定重建视频中的动态信息是源于fMRI数据,还是视频生成模型的幻觉。 为解决这些问题,本研究提出了Mind-Animator,一种从fMRI中解耦语义、结构和运动信息的视频重建模型。具体而言,将fMRI映射到CLIP表示空间和VQ-VAE潜在空间以捕捉语义和结构信息,并设计了一个基于Transformer的运动解码器,通过下一帧预测任务逐帧提取运动信息。最后,解码的语义、结构和运动信息被输入到未经过视频数据微调的膨胀StableDiffusion模型中,生成视频的每一帧。 02研究方法 ![]() 如图所示,方法分为两个阶段:fMRI-to-feature(从fMRI到特征)和feature-to-video(从特征到视频)。在fMRI-to-feature阶段,从fMRI数据中解耦出语义、结构和运动特征。首先,通过fMRI-视觉-语言三模态对比学习,将fMRI映射到CLIP表示空间,以提取语义信息;同时,利用VQ-VAE潜在空间捕捉结构信息,如颜色和位置。此外,本研究设计了一种基于Transformer的稀疏因果注意力机制,通过下一帧预测任务逐帧解码运动特征,以应对fMRI时间分辨率低带来的挑战。 在feature-to-video阶段,将解耦出的语义、结构和运动特征整合为视频。具体而言,这些特征被输入到一个未经过视频数据微调的膨胀StableDiffusion模型中,生成每一帧视频。通过这种方式,避免了对外部视频数据的依赖,确保重建视频的动态信息完全源于fMRI数据,而非生成模型的幻觉。 03实验结果 ![]() 重建视频demo演示 ![]() ![]() ![]() ![]() 本研究在多个数据集上对比了本研究的模型与所有先前的视频重建模型。定量结果显示,本研究提出的模型在八项指标中的六项上达到了最先进(SOTA)性能,尤其在SSIM和EPE指标上分别比之前的SOTA模型提升了83%和13%。此外,模型在HCP和Algonauts2021数据集上也表现优异,显著优于Mind-Video。 在CC2017数据集上,本项目还评估了检索任务,使用top-10和top-100准确率作为指标。为测试泛化能力,在包含1,200个样本的测试集(“小型”)和扩展至4,240个样本的“大型”刺激集上进行了测试。结果表明,本研究提出的模型在所有受试者上均表现优异,且在“大型”刺激集上性能下降较小,展示了更强的泛化能力。 04可解释性分析 (1)模型是否真的能从fMRI中解码出运动信息? ![]() 本研究参考Wang等人的工作,在CC2017数据集的三个受试者上进行了帧顺序打乱测试,以评估一致性运动生成器(CMG)是否准确从fMRI中解码了运动信息。具体而言,对于每个受试者生成的8帧重建视频(注意,若是对视频的语义解码就出现了错误,比如把人解码成了动物或者场景,那么就没必要验证该视频的运动信息是否解码正确了,因此仅对那些语义解码正确的视频进行了测试),随机打乱帧顺序100次,并计算原始帧与打乱帧的时空级指标。随后,通过公式P=∑δi/100估计P值,其中δi=1表示第i次打乱的结果优于原始顺序的重建结果,否则δi=0。P值越低,表明重建视频的帧顺序与真实顺序越接近。团队在使用和不使用CMG的条件下各重复了5次测试,结果如图6所示。 实验显示,当使用CMG时,EPE指标的P值显著低于0.05。然而,尽管使用CMG时CLIP-pcc的P值显著低于未使用CMG的情况,但其P值仍显著高于0.05。为解释这一现象,本研究进一步在噪声上限(直接使用测试集特征生成的视频)上重复了打乱测试。结果表明,即使对于噪声上限,CLIP-pcc的P值仍显著高于0.05。这说明:(1)模型确实从fMRI中解码了运动信息;(2)在评估模型解码运动信息的能力时,EPE是比CLIP-pcc更有效的指标。 ![]() 为了进一步验证解码的运动信息是源于fMRI的指导还是CMG的自回归训练,本研究在CMG模块训练中移除了fMRI指导(w/ofMRI guidance),将空间模块中的交叉注意力替换为自注意力,同时保持其他结构和超参数不变。如图7所示,移除fMRI指导导致EPE明显下降,证实了CMG确实从fMRI中有效解码了运动信息。此外,对比移除整个CMG模块(w/oMotion)和仅移除fMRI指导(w/ofMRI guidance)的情况,本研究发现后者对EPE的影响占主导(即EPE下降的90%可归因于fMRI指导的缺失)。这进一步强调了fMRI指导在从脑信号中准确解码运动信息中的关键作用。 (2)模型解耦的三种特征分别由哪些脑区解释? ![]() ![]() 为了研究在fMRI-to-feature阶段哪些脑区负责解码不同特征(语义、结构、运动),本研究计算了视觉皮层中的体素级重要性图。具体而言,对于训练好的解码器,乘上线性层的权重矩阵,沿特征维度取平均并归一化,以估计每个体素的重要性权重。权重越高,表明该体素在特征解码中的作用越显著。本研究将CC2017数据集中受试者1的体素重要性图投射到视觉皮层上,如图8所示。为获得ROI级重要性图,本研究计算了每个感兴趣区域(ROI)内体素重要性权重的平均值,结果如图9所示。 图9(a)表明,高级视觉皮层区域(如MT)在语义特征解码中贡献更大,占总体的60.5%,9。图8(c)和9(c)表明,低级和高级视觉皮层均参与运动信息解码,其中MT和TPOJ区域权重显著。这一发现与先前研究一致,验证了MT和TPOJ在视觉运动感知和处理中的作用。 从图9中还发现:(1) MT在语义解码中显著激活,这与动态视觉输入处理中背侧和腹侧通路的功能分离与交互一致,特别是腹侧-背侧通路与动作理解和识别相关;(2) V1在解码运动特征时主要激活,反映了视觉系统的并行处理能力,运动信息在背侧通路中并不严格遵循层级处理,V1直接将方向、速度等信息投射到MT进行进一步处理。更多神经生物学解释详见附录。 05总结 本研究提出了一种视频重建模型(Mind-Animator),能够从fMRI中解耦语义、结构和运动信息,并在3个公开数据集上实现了最先进的性能。通过合理的实验设计,本研究减少了外部视频数据对运动信息解码的干扰。打乱测试的结果表明,解码的运动信息确实源于fMRI,而非生成模型的自发行为。此外,体素级和ROI级重要性图的可视化进一步证实了模型在神经生物学上的可解释性。 06主要作者介绍 卢一卓,中国科学院自动化研究所二年级直博生,以第一作者在ICLR,ACM MM等会议发表论文。 个人主页:https://reedonepeck./Luyizhuo. 何晖光,中国科学院自动化研究所研究员,博士生导师,国家高层次人才,中国科学院大学岗位教授,上海科技大学特聘教授。先后主持多项国家自然科学基金、863项目、国家重点研发计划课题等多个重要项目。获得国家科技进步二等奖两项(排二、排三),北京市科技进步奖两项,教育部科技进步一等奖等奖项。入选北京市科技新星,中科院“卢嘉锡青年人才奖”,中科院青年创新促进会优秀会员等。其研究领域为脑-机接口、类脑智能、医学影像分析等,在CNS子刊, IEEE TPAMI/TNNLS/TCYB/TMI,ICML,ICLR,MICCAI等发表文章200余篇。自动化学报编委,CCF/CSIG杰出会员。建国七十周年纪念章获得者。 研究工作得到了中国科学院战略性先导科技专项、国家自然科学基金以及北京市自然科学基金的资助。 仅用于学术分享,若侵权请留言,即时删侵! 加入社群 欢迎加入脑机接口社区交流群, 探讨脑机接口领域话题,实时跟踪脑机接口前沿。 加微信群: |
|