分享

MRI 经济学:在全脑关联研究中平衡样本量和扫描时长

 思影科技 2024-09-12 发布于重庆

     神经影像学中一个普遍存在的困境是,在资源固定的情况下,是优先考虑样本量还是扫描时长?在这项研究中,我们系统地调查了这种权衡,特别是在使用静息态功能磁共振成像(fMRI)进行全脑关联研究(BWAS)的背景下。我们发现,总扫描时长(样本量 × 每位参与者的扫描时长)通过对数模型能够有力地解释个体水平的表型预测准确性,这表明样本量和扫描时长在很大程度上是可以互换的。扫描时长的收益最终会相对于样本量而递减,我们用原理性的理论推导解释了这一点。当考虑到与每位参与者相关的固定成本(如招募、非影像测量)时,我们发现小规模BWAS(全脑关联研究)的预测准确性可能会从比通常假设的更长的扫描时长(>50分钟)中受益。大多数现有的大规模研究可能也会从更小的样本量和更长的扫描时长中受益。样本量、扫描时长和预测准确性之间关系的对数模型和理论模型对预测良好的表型的解释比预测不佳的表型更好。个体大脑状态的差异也会削弱对数模型和理论模型。这些结果在两个大规模数据集的不同表型领域(如认知和心理健康)中得到重复验证,使用了不同的算法和指标。总的来说,我们的研究强调了扫描时间的重要性,这在标准功效计算中被忽视了。标准功效计算不可避免地以牺牲扫描时长为代价来最大化样本量。由此产生的预测准确性可能低于使用替代设计所能产生的准确性,从而阻碍了科学发现本文发表在bioRXiv 预印本平台。

引言

      系统神经科学中的一个基本问题是,个体在大脑结构和功能(通过MRI测量)方面的差异如何与表型特征(如认知能力或身体健康)的常见变异相关联。根据我们之前的研究(Marek等,2022),我们将全脑关联研究(BWAS)定义为研究人类大脑结构/功能的普遍个体间变异与表型之间关联的研究。BWAS的一个重要子类旨在使用机器学习预测个体水平的表型。个体水平的预测对于解决基础神经科学问题和精准医学都至关重要(Finn等,2015;Gabrieli等,2015;Woo等,2017;Bzdok & Ioannidis,2019;Eickhoff & Langner,2019;Varoquaux & Poldrack,2019)。

     许多BWAS的统计功效不足,导致可重复性低和预测性能被夸大(Button等,2013;Arbabshirani等,2017;Bzdok & Meyer-Lindenberg,2018;Kharabian Masouleh等,2019;Elliott等,2020;Poldrack等,2020)。更大的样本量可以提高脑-行为关联的可靠性(Tian & Zalesky,2021;Chen等,2023)和个体水平的预测准确性(He等,2020;Schulz等,2020)。事实上,最近的一项研究表明,可靠的BWAS需要数千名参与者(Marek等,2022),尽管某些多变量方法可能会降低样本量要求(Chen等,2023)。

      与此同时,其他研究强调了在静息和任务状态下每位参与者长时间功能性MRI(fMRI)扫描的重要性,这可以提高数据质量和可靠性(Nee,2019;Noble等,2019;Elliott等,2020;Lynch等,2020),并带来对大脑的新见解(Laumann等,2015;Newbold等,2020;Gordon等,2023)。当样本量固定时,增加每位参与者的静息态fMRI扫描时长可以提高某些认知测量的个体水平预测准确性(Feng等,2023)。

      因此,在资源无限的理想世界中,基于fMRI的BWAS应该同时最大化样本量和每位参与者的扫描时长。然而,在现实中,BWAS研究人员必须在固定的扫描预算内决定是扫描更多参与者(时间较短),还是扫描较少参与者(时间较长)。此外,由于与每位参与者相关的固有开销成本,样本量和每位参与者的扫描时长之间存在根本的不对称性,这种成本可能相当可观,例如从稀有人群中招募参与者时。令人惊讶的是,样本量和每位参与者扫描时长之间的确切权衡从未被研究过。我们强调,这种权衡对于小型研究的设计和涉及数千名参与者的大规模数据收集工作都是一个问题,因为多个研究者之间存在竞争利益,而参与者的可用性有限。

      在这项研究中,我们使用青少年脑与认知发展(ABCD)研究和人类连接组项目(HCP)来系统地描述静息态fMRI的样本量和扫描时长对BWAS预测准确性和可靠性的影响。我们考虑了ABCD研究中的37个表型和HCP数据集中的59个表型,涵盖认知、人格、情感、身体、幸福感和心理健康。我们还探讨了每位参与者的开销成本如何影响在固定扫描预算内最大化预测准确性时样本量和扫描时长之间的权衡,从而为未来的研究设计提供实证参考。

结果

       更大的样本量可以弥补较短的扫描时长,反之亦然。

      对每位参与者,我们使用前T分钟的fMRI数据计算了一个419 × 419的静息态功能连接(RSFC)矩阵(Schaefer等,2018)。T的范围从2分钟到每个数据集的最大扫描时间,以2分钟为间隔变化。这些RSFC矩阵(来自前T分钟)作为输入特征,通过内部嵌套交叉验证程序使用核岭回归(KRR)来预测每个数据集中的一系列表型。表型的详细信息可在方法部分找到。分析使用不同数量的训练参与者(即不同的训练样本量N)重复进行。在每个交叉验证循环中,测试参与者在不同的训练集大小之间保持固定,以便预测准确性在不同的训练集大小之间可比(图1A)。整个程序重复50次并取平均值,以获得稳定结果(图1A)。

图1. 增加训练参与者数量和每位参与者的扫描时长可提高表型预测准确性

      (A) HCP数据集的预测工作流程。参与者被分为10组。一组被设为测试集。剩余的组构成训练集。在训练集上进行交叉验证以选择最佳超参数。然后使用最佳超参数从完整训练集拟合最终模型,该模型用于预测测试集中的表型。为改变训练集大小,对每个训练组进行子采样,并使用较小的训练集重复整个内部嵌套交叉验证程序。如图所示,测试集在不同训练集大小之间保持不变,因此预测准确性在不同样本量之间可比。每组轮流作为测试集(即10折内部嵌套交叉验证),并使用每位参与者不同数量的fMRI数据T重复该程序(图中未显示)。为保证稳定性,整个程序重复50次并取平均值。ABCD数据集使用了类似的工作流程。需要注意的是,在HCP的情况下,注意不将兄弟姐妹分到不同组,而在ABCD的情况下,来自同一地点的参与者不会分到不同组。

      (B) 青少年脑与认知发展(ABCD)和人类连接组项目(HCP)数据集中,认知因子得分预测准确性(皮尔逊相关系数)作为用于生成功能连接矩阵的扫描时间T和用于训练预测模型的训练参与者数量N的函数的等高线图。增加训练参与者和扫描时间都可以提高预测性能。两个图中的*表示使用了所有可用的参与者,因此样本量会接近但不完全等于所示数字。更多额外的控制分析可在图S1至S5中找到。

       我们首先考虑了每个数据集的认知因子得分,因为之前发现认知因子得分在所有表型中表现出最高的预测准确性(Ooi等,2022)。图1B展示了HCP和ABCD数据集中认知因子的预测准确性(皮尔逊相关系数)作为每位参与者扫描时间和训练参与者数量的函数。沿着黑色等高线,即使扫描时长和样本量在变化,预测准确性(几乎)保持不变。与之前的文献一致(He等,2020;Schulz等,2023),增加训练参与者数量(当每位参与者的扫描时间固定时)可以提高预测性能。
      同样,增加每位参与者的扫描时间(当训练参与者数量固定时)也可以提高预测性能(Feng等,2023)。当我们使用决定系数(COD)而不是皮尔逊相关系数来衡量预测准确性(图S1),使用前T分钟的未删减数据计算RSFC(图S2),不对高运动帧进行删减(图S3),或使用线性岭回归(LRR)而不是KRR(图S4和S5)时,得到了类似的结论。

样本量和每位参与者的扫描时间是可互换的

      接下来,我们描述了样本量和每位参与者扫描时长对不同表型预测的相对贡献。图2A显示认知因子的预测准确性随总扫描时长(训练参与者数 × 每位参与者扫描时间)的增加而提高,这表明样本量和每位参与者的扫描时间在很大程度上是可以互换的。

图2. 样本量和扫描时间在个体水平表型预测中基本可互换

      (A) 散点图显示认知因子的预测准确性(皮尔逊相关系数)作为总扫描时间(定义为训练参与者数 × 每位参与者扫描时间)的函数。每种颜色代表用于训练预测算法的不同总参与者数。图表分别针对青少年脑与认知发展(ABCD)研究和人类连接组项目(HCP)重复。*表示使用了所有可用参与者,因此样本量接近但不完全等于所示数字。在HCP数据集中,每位参与者超过30分钟的扫描时间存在收益递减;超过30分钟扫描时间的数据点用黑色轮廓显示。如黑色箭头所示,扫描700名参与者14分钟和300名参与者58分钟得到的预测准确性相同,尽管前者的总扫描时间几乎是后者的2倍:700 × 14 = 9800 vs 300 × 58 = 17400。在ABCD数据集中,每位参与者的最大扫描时间为20分钟,未观察到扫描时间的收益递减。

      (B1) 散点图显示认知因子得分和其他34个表型的标准化预测准确性与总扫描时长的关系,忽略超过20分钟扫描时间的数据。认知、心理健康、人格、身体、情感和幸福感测量分别以红色、灰色、蓝色、黄色、绿色和粉色的色调显示。黑色对数曲线表明总扫描时间可以很好地解释跨表型领域和数据集的预测性能。

     (B2) 与图2B1相同,除了水平轴(总扫描时长)以对数尺度绘制。黑色直线表明总扫描时长的对数可以很好地解释跨表型领域和数据集的预测性能。

      在HCP数据集中,我们观察到对于超过30分钟的扫描时间,扫描时间相对于样本量的收益递减。例如,对700名参与者每人扫描14分钟(总扫描时间9800分钟)和对300名参与者每人扫描58分钟(总扫描时间17400分钟)产生了相似的预测准确性(图2A中的箭头)。在ABCD研究中没有出现扫描时间的收益递减,该研究的最大扫描时间为20分钟。

     除了认知因子得分,我们还关注了HCP的28个(共59个)和ABCD的23个(共37个)表型,这些表型预测得相当好,最大预测准确性r > 0.1(表S1A)。通过目视检查,我们发现89%(即28个中的25个)HCP表型在20-30分钟后出现扫描时间的收益递减。所有23个ABCD表型都没有观察到收益递减。

      总的来说,这表明对于几乎所有(预测得相当好的)表型测量,样本量和每位参与者的扫描时长在ABCD研究中以及HCP数据集中最多30分钟内是基本可互换的。正如后面一节将看到的,HCP数据集中扫描时间的收益递减可能是由HCP研究设计捕捉到的个体间脑状态差异造成的。

总扫描时长通过对数趋势解释预测准确性

      在25个HCP和所有23个ABCD表型中,样本量和扫描时长表现出广泛的可互换性,其中76%(25个中的19个)HCP和74%(23个中的17个)ABCD表型显示出明显的对数模式(表S1A;图S6和S7)。为评估总扫描时间和预测准确性之间对数关系的普遍性,对于19个HCP和17个ABCD表型中的每一个,我们在预测准确性和总扫描时间之间拟合了一条对数曲线(有两个自由参数)(忽略每位参与者超过20分钟的数据)。对数拟合允许将两个数据集的表型测量绘制在相同的标准化预测性能尺度上(图2B)。详见方法部分。

      黑色曲线(图2B)表示表型(图2B中的点)的对数拟合质量。总体而言,总扫描时长很好地解释了HCP和ABCD表型的预测准确性:决定系数(COD)或R²分别为0.88和0.89。例如,在HCP数据集中扫描300名参与者28分钟(总扫描时间 = 300 × 28 = 8400分钟),或在ABCD数据集中扫描600名参与者14分钟(总扫描时间 = 600 × 14 = 8400分钟)得到的认知因子得分标准化预测准确性非常相似(图S8中的箭头)。定量拟合优度指标见表S1B。

     对数曲线也能很好地解释不同预测算法(KRR和LRR)和不同性能指标(COD和r)的预测准确性,如图S8所示的认知因子得分。当我们考虑30分钟而不是20分钟的扫描时间时,对数拟合也非常出色(图S9)。

随着扫描时间增加,样本量变得比扫描时间更重要

     在前面的部分中,我们展示了样本量和每位参与者的扫描时间在ABCD研究中以及HCP数据集中每位参与者最多20-30分钟的扫描时间内是基本可互换的。为更仔细地检查这种可互换性,我们考虑了HCP因子得分在总扫描时长为6000分钟的六种样本量和扫描时间组合下的预测准确性(图3A)。

图3. 随着扫描时间增加,样本量最终变得比扫描时间更重要。

      (A) 当总扫描时长固定在6000分钟时,每位参与者的扫描时间从10分钟到60分钟变化,HCP认知因子得分的预测准确性。每个小提琴图显示了50次随机交叉验证分割的预测准确性分布。*表示在假发现率(FDR)q < 0.05校正后,预测准确性分布显著不同。

     (B) HCP数据集中一个代表性表型(空间定向)的预测准确性与总扫描时长的散点图。曲线是通过将理论模型拟合到认知因子得分的预测准确性获得的。该理论模型解释了为什么样本量比扫描时间更重要(见正文)。

       我们观察到,尽管保持总扫描时长为6000分钟,但随着每位参与者扫描时间的增加,预测准确性有所下降(图3A)。然而,在30分钟以下的扫描时间内,准确性下降很小,并且不显著。对于所有19个HCP和17个ABCD表型(遵循对数拟合)得出了类似的结论(图S10)。

     观察到增加每位参与者的扫描时间相对于样本量有收益递减,这表明简单的对数模型并不能解释所有影响预测准确性的因素。在下一节中,我们推导了一个数学理论,更好地解释了扫描时间和样本量对预测的相对贡献,这与实证观察相符。

    预测准确性与样本量和扫描时间的理论关系解释了为什么样本量比扫描时间更重要

    尽管样本量和扫描时间基本可互换,但每位参与者的扫描时间相对于样本量存在收益递减(图3A)。为了深入了解这一现象,我们在某些温和假设下推导出了一个闭式数学关系,将预测准确性(皮尔逊相关系数)与每位参与者的扫描时间T和样本量N联系起来(见方法)。

     我们发现预测准确性可以表示为样本量"N"和总扫描时长"NT"的函数。通过与实际数据(图1B)拟合,估算出了具有三个自由参数的理论模型,该模型与19个HCP和17个ABCD表型的实际预测准确性非常吻合(图3B、S11和S12):两个数据集的R² 均为0.89(表S1B)。

     基于估计的模型参数,我们发现当T较小时,NT项主导N项,这解释了在较短扫描时长下扫描时间和样本量之间几乎1:1的可互换性。N项的存在确保即使在T很小的情况下,样本量仍然略微比扫描时间更重要。随着T的增加,N项变得与NT项相当,然后主导NT项,因此样本量变得比扫描时间重要得多。

     回顾一下,我们注意到理论模型符合这样的直觉:更大的样本量对于捕捉脑测量和表型的个体间变异性是必要的(Kharabian Masouleh等,2019),这不能仅仅通过增加每位参与者的扫描时长来实现。每位参与者的扫描时长对于解释个体内变异性仍然很重要。然而,更大的样本量仍然可以隐式地解释个体内变异(Orban等,2020),这可能解释了为什么最终样本量仍然略微比每位参与者的扫描时长更重要。


模型对于预测较好的表型效果更佳

     对于最大预测准确性(皮尔逊相关系数r)大于0.1的表型,对数模型和理论模型能够很好地解释预测准确性,平均解释方差大于75%(表S1B)。如果我们放宽预测阈值,包括在所有样本量N和扫描时间T组合中至少90%的组合中预测准确性(皮尔逊相关系数r)为正的表型(表S1A),模型拟合度较低但仍相对较高,平均解释方差大于67%(表S1B)。

     更总体地说,总体预测准确性高的表型与对数模型和理论模型的吻合度很好(图4A中的例子),而预测准确性差的表型则导致与两个模型的吻合度较差(图4B中的例子)。事实上,在两个数据集中,两种模型的拟合度与表型的预测准确性都呈强相关(图4C至4F)。这些发现表明,对于某些表型而言,理论模型和对数模型拟合度不完美可能部分是由于它们本身的可预测性较差,而不是由于它们的响应模式真正存在变化。

图4. 对数模型和理论模型对于预测较好的表型效果更佳

(A) 一个预测准确性高的示例表型的预测准确性与总扫描时长的散点图。

(B) 一个预测准确性低的示例表型的预测准确性与总扫描时长的散点图。

(C) ABCD不同表型的对数模型拟合优度(决定系数或COD)与预测准确性的散点图。COD(也称为R²)是解释方差的一种度量。这里,我们考虑了在所有样本量N和扫描时间T组合中至少90%的组合中预测准确性(皮尔逊相关系数r)为正的表型,得到了42个HCP表型和33个ABCD表型。预测准确性(横轴)基于最大扫描时间和样本量。为了可视化,我们通过拟合单调递增函数绘制了一条虚线。

(D) 与面板C相同,但使用理论模型(而不是对数模型)。

(E) 与面板C相同,但使用HCP(而不是ABCD)数据集。

(F) 与面板C相同,但使用HCP(而不是ABCD)数据集,并使用理论模型(而不是对数模型)。

对于所有面板,对数模型拟合使用了每位参与者最多20分钟的扫描时间。对于理论模型拟合,使用了每位参与者的最大扫描时间。

功能磁共振成像扫描期间的状态效应削弱了模型的吻合度

      理论模型比对数模型更好地匹配了实证数据。然而,仍然存在一些差异,特别是在HCP数据集中,有时随着扫描时间的增加,预测准确性反而下降(图S7)。如前所述,一些表型可能由于本质上的可预测性较差而无法匹配对数模型或理论模型。然而,有些表型的预测效果相当不错,但仍然与对数模型和理论模型的拟合度较低。例如,在HCP数据集中,"愤怒:攻击性"的预测效果相当不错,但预测准确性主要通过增加样本量而非扫描时间来提高(图5A)。随着每位参与者的扫描时间增加,预测准确性似乎先增加,然后减少,之后再次增加。这种模式在不同样本量下表现得相当一致(图5A)。

图5. 静息态功能磁共振成像期间的状态效应削弱了对数模型和理论模型的吻合度。

      (A) HCP数据集中"愤怒:攻击性"表型的预测准确性与总扫描时长的散点图。尽管准确性相对较高,但该表型随样本量增加而改善,而不是随扫描时间增加。随着每位参与者的扫描时间增加,预测准确性似乎先增加,然后减少,之后再次增加。

     (B) 在为每位参与者随机化功能磁共振成像运行顺序后,HCP数据集中"愤怒:攻击性"表型的预测准确性与总扫描时长的散点图。注意现在预测准确性与对数模型和理论模型高度吻合。

     (C) ABCD数据集中更大一组表型在随机化功能磁共振成像运行顺序前后对对数模型和理论模型的拟合优度箱线图。这里我们考虑了所有在N和T的所有组合中至少90%的组合中预测准确性(皮尔逊相关系数r)为正的表型。*表示拟合优度存在显著差异(FDR校正后q < 0.05)。

     (D) 与面板C相同,但使用HCP数据集。对于所有面板,模型拟合使用了每位参与者的最大扫描时间。

      我们假设这可能是由于静息态扫描之间或期间的状态变化所致(Wang等,2016;Bijsterbosch等,2017;Orban等,2020)。例如,参与者可能在不同条件下来参加扫描,这些条件可能影响大脑测量(如是否禁食/进食、是否摄入咖啡因、睡眠质量;Laumann等,2015;Poldrack等,2015;Yeo等,2015)。此外,众所周知,警觉性在静息态扫描期间通常会降低(Tagliazucchi & Laufs,2014),这可能会根据表型的不同而增加或降低预测准确性。为了验证这一假设,我们对每位参与者的功能磁共振成像运行顺序进行了随机化,并重复了分析(见方法)。对于"愤怒:攻击性",预测准确性现在可以很好地被对数模型和理论模型解释(图5B),尽管对某些表型而言,扫描时间的收益递减仍然存在(图S13和S14)。

许多研究将受益于更长的每位参与者扫描时间

      我们已经证明,研究人员可以通过不同的样本量和每位参与者扫描时间的组合来达到特定的预测准确性。为了为未来的研究提供参考,我们将理论模型拟合到17个HCP和19个ABCD表型,得到了89%的平均解释方差(表S1B)。对于每个表型,模型通过其最大可达到的准确性(由理论模型估计)进行了归一化,从而得到每种样本量和每位参与者扫描时间组合的最大可达到预测准确性的分数。然后,这个最大可达到预测准确性的分数在36个表型中取平均值(图6A)。

图6. 平衡样本量和扫描时长,同时考虑每位参与者的固定成本,以优化设计BWAS。

      (A) 最大可达到预测准确性的分数,作为样本量和每位参与者扫描时间的函数。理论模型被拟合到36个HCP和ABCD表型,得到89%的平均解释方差(表S1B)。对于每个表型,模型通过其最大可达到的准确性(基于理论模型)进行了归一化,从而得到每种样本量和每位参与者扫描时间组合的最大可达到预测准确性的分数。然后,这个最大可达到预测准确性的分数在36个表型中取平均值得到此图。

     (B) 最大可达到预测准确性的分数,作为总功能磁共振成像预算、每小时扫描成本和每位参与者的间接成本的函数。实心圆圈表示最大预测准确性的位置。圆圈周围的黑色轮廓表示样本量和扫描时间的最佳组合超出了图表边缘(即超过200分钟的扫描时间)。例如,当总功能磁共振成像预算为1000万美元,每小时扫描成本为500美元,每位参与者的间接成本为500美元时,最佳预测准确性是通过扫描12,500名参与者,每位参与者36分钟来实现的。总的来说,这表明许多现有研究,包括大规模研究,可能会受益于增加每位参与者的扫描时间。

     在研究设计中,我们需要考虑样本量和每位参与者扫描时长之间的根本不对称性,因为每位参与者都有固有的固定间接成本(包括招募努力和非功能磁共振成像扫描时间),这可能相当可观。图6B说明了在不同的总功能磁共振成像预算、每小时扫描成本和每位参与者间接成本下可以达到的预测准确性。实心圆圈表示导致最高预测准确性的每位参与者的最佳扫描时间。

有三个主要观察结果(图6B):

     1. 更大的总功能磁共振成像预算、更低的每小时扫描成本和更低的每位参与者间接成本允许更高的可达到预测准确性。

    2. 最佳扫描时间随着每位参与者的间接成本增加、总功能磁共振成像预算减少和每小时扫描成本降低而增加。

    3. 最佳样本量随着每位参与者的间接成本增加、总功能磁共振成像预算减少和每小时扫描成本降低而减少。

     例如,当总功能磁共振成像预算为10万美元,每小时扫描成本为500美元,每位参与者的间接成本为500美元时,最佳预测准确性是通过扫描105名参与者,每位参与者54分钟来实现的。另一个例子是,当总功能磁共振成像预算为1000万美元,每小时扫描成本为500美元,每位参与者的间接成本为500美元时,最佳预测准确性是通过扫描12,500名参与者,每位参与者36分钟来实现的。因此,许多研究,包括大规模研究,可能会比通常假设的情况更受益于增加每位参与者的扫描时间。

     如果我们只考虑13个与理论模型高度一致且没有严重过度拟合或欠拟合的表型子集(图S15),所有36个表型在随机化运行顺序后(图S16),以及17个在随机化运行顺序后与理论模型高度一致且没有严重过度拟合或欠拟合的表型子集(图S17),我们得出了类似的结论。

     我们注意到,这些结果(图6)没有考虑二阶效应。例如,某些人群(如儿童)可能无法一次承受超过1小时的磁共振成像扫描,因此更长的扫描需要分成多个阶段,每个阶段都会产生间接成本,等等。另一个例子是,超过一定的样本量,多站点数据收集变得必要,这会增加每位参与者的间接成本。我们的网络应用程序允许更灵活的使用。

预测准确性和BWAS可靠性之间的结论类似

      接下来,我们关注样本量和每位参与者扫描时长对BWAS(脑全连接关联研究)可靠性的影响(Marek等,2022),使用先前建立的对半分割程序(图S18A;Tian & Zalesky, 2021; Chen等,2023)。对于单变量和多变量BWAS可靠性,得出了类似的结论,只是扫描时间的收益递减出现在每位参与者10分钟以后,而不是预测准确性的20-30分钟(图S18至S32)。

      然而,我们强烈建议在研究设计中应优先考虑预测准确性,而不是可靠性。原因是可靠性并不意味着有效性(Schmidt等,2000; Noble等,2019)。例如,硬件伪影可能在测量中可靠地出现,但没有任何生物学相关性。在静息态功能磁共振成像的情况下,可靠的BWAS特征可能实际上并不能预测个体水平的表型。

讨论

      神经影像研究总是面临着如何分配固定资源以实现最佳研究设计的困难决策。在这里,我们系统地研究了在预测静息态功能磁共振成像数据的表型时,最大化扫描时长和样本量之间的权衡。我们发现样本量和每位参与者的扫描时间在很大程度上是可以互换的。预测准确性可以通过一个简单的对数模型和一个更复杂的理论模型得到很好的解释。模型拟合在多个表型领域和两个不同数据集的许多表型中都保持一致,表明这些发现具有很强的普遍性。当考虑到每位参与者的间接成本时,我们发现未来的研究设计可能会从每位参与者更长的扫描时间中受益,比现有研究中采用的时间更长。

      总的来说,我们的结果表明,根据特定人群和地点的特征灵活修改研究设计是有优势的。例如,一个研究者想要研究未用药的9-10岁自闭症谱系障碍儿童,这些儿童能在磁共振扫描中保持静止(即每位参与者的间接成本较高),可能会发现增加每位参与者的扫描时间更为经济,以达到最大可能的预测准确性。另一个面临特别高的每小时扫描费用的研究者可能会选择减少扫描时间并增加样本量。

      更广泛地说,我们的结果强烈反对仅以样本量为输入的传统功效分析来指导BWAS设计的常见做法。因为这种功效分析不可避免地指向最大化样本量,在预算限制下扫描时间就会被最小化。由此产生的预测准确性可能低于采用其他设计方案所能产生的准确性,从而阻碍科学发现。

      为了在不同约束条件下更准确地实现灵活决策并指导研究规划,我们提供了一个网络应用程序可以估算在不同样本量、每位参与者扫描时长和间接成本下可以达到的最大预测准确性分数,以及其他附加因素。例如,某些人口统计和患者群体可能无法忍受较长的扫描,所以一个附加因素将是每次磁共振成像会话的最大扫描时长。另一个例子是,超过一定的样本量,多站点数据收集成为必要,这会导致更高的间接成本。

      一个重要的局限性是,这个经验性参考对于预测效果不佳的表型作用较小,这些表型主要包括非认知表型(图4)。预测效果不佳的表型有两个非排他性原因。一个原因是表型的测量可能不可靠或无效(Uher, 2015; Nikolaidis等, 2022; Gell等, 2023),这表明需要改进表型的测量。第二个原因是表型与静息态功能磁共振成像之间可能只存在弱关系,在这种情况下,可能值得探索其他成像模式。

     另一个注意事项是,对于那些预测准确性受到静息态功能磁共振成像期间个体间脑状态差异高度影响的表型(图5),这个经验性参考的作用较小,这可能是由于觉醒水平的影响(Bijsterbosch等,2017)。这似乎在HCP数据集中是一个更大的问题,HCP数据集涉及的扫描时间明显长于ABCD数据集,并且是在两个不同的扫描会话中获得的。通过探索脑状态与这些表型之间的相互作用,未来的工作可能会开发出更好的基于大脑的对这些表型的预测。

     此外,重要的是要注意,除了经济因素外,数据样本的代表性和多样性以及它们对亚群体的普适性也很重要(Benkarim等,2022; Greene等,2022; Li等,2022; Kopal等,2023)。最后,并非所有研究都对大脑和非大脑成像表型之间的横断面关系感兴趣。例如,使用个体水平网络进行精神障碍的脑刺激治疗(Cash等,2021; Lynch等,2022)或神经外科规划(Boutet等,2021),可能需要更多的每位参与者静息态功能磁共振成像数据,以准确估计个体水平网络(Laumann等,2015; Braga & Buckner, 2017; Gordon等,2017)。

结论

      我们发现,对于脑全连接关联研究(BWAS),样本量和每位参与者的扫描时间在很大程度上是可以互换的,尽管最终每位参与者的扫描时间相对于样本量会有收益递减。当考虑到每位参与者的固定间接成本时,我们发现大多数研究(包括大规模研究)可能会从比先前假设更长的每位参与者扫描时间中受益。我们的发现为校准扫描时间和样本量以优化研究个体间脑网络结构变异与个体行为差异之间关系提供了一个基于经验的参考。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多