分享

当AI遇到医学统计学 | NEJM综述

 医学abeycd 2023-10-05 发布于湖北

医学统计在临床试验的随机分组、假设检验、P值以及贝叶斯分析和决策理论中发挥了至关重要的作用。2000年,《新英格兰医学杂志》(NEJM)编辑将“统计学在医学中的应用”列为过去1000年间医学科学领域最重要的11项发展之一

着计算机能力和数据可用性的大幅提升,人工智能(AI)在医学研究中的影响越来越大,AI已成为数据分析中的宝贵补充工具,但从统计学角度看,AI仍然很脆弱,尚无法满足医学领域对风险预测或疾病诊断的严格要求


上周出版的NEJM发表综述,深入讨论将AI应用于生物医学数据分析时所面临的统计学挑战,以及研究人员如何才既能从数据中尽可能多地获得信息,又能确保数据驱动的结论准确、稳健且可再现。

我们在此发表其主要内容。全文翻译即将上线,敬请关注《NEJM医学前沿》官网或APP


特征表征学习


在传统统计学建模方法中,研究人员自己仔细选择纳入分析的测量值和数据特征(如回归模型纳入哪些协变量),以及对测量值进行转换或标准化。数十年来,随机森林及前向或后向选择逐步回归等半自动化数据降维技术一直在协助统计师做出亲自选择。建模假设和特征通常明确,模型维度(以参数数量量化)通常也已知。虽然该方法利用专家判断来提供高质量人工分析,但有两个潜在缺陷。首先,它无法扩展到超大数据集,例如数百万张图像。其次,其假设是统计师知晓或能够搜索最合适纳入分析的特征或测量数据集(图1A)

图片

图1. 统计学和人工智能(AI)模式特点

可以说,AI最令人惊叹和出众的方面是从数据中自动搜索和提取任意、复杂、以任务为导向的特征的能力,即所谓的特征表征学习。在训练阶段,通过算法从数据中构建特征,以发现对学习任务而言正确的数据转换。最优性是通过化了AI模型执行手头任务情况的"目标函数"来衡量。AI算法在很大程度上不再需要分析师预先指定预测特征或手动变量转换。这些特性对大型复杂数据领域尤其有益,如图像分析、基因组学或电子健康记录建模。AI模型有可能搜索数十亿种非线性协变量转换,从而将大量变量缩减为一小组任务适应性特征。此外,有点自相矛盾的是,在深度学习中,通过增加参数提高AI模型复杂性只会有助于AI模型搜索更丰富的内部特征集,前提是训练方法经过适当定制。

其结果是,经过训练的AI模型可以构建出超越人类所能构建的特征范围的数据适应性特征,从而达到惊人的任务性能。问题是,这些特征可能难以解读,面对不断变化的数据时也很脆弱,而且在使用背景知识和定性检查方面缺乏常识,而统计师在决定模型中使用的特征集时,会利用这些背景知识和定性检查。AI模型通常无法追溯从数据到特征的证据线,这就给可审核性和验证带来了挑战。因此,有必要加强制约与平衡,以确保AI科学发现的效度和外推性(图1B)。

在通过自监督学习进行生成式AI的新兴领域,检查AI支持的结果尤为重要。这些基础模型的自监督学习涉及大量未经证实的训练数据,并使用广泛目标函数训练具有数万亿参数的模型。这与AI预测模型的“监督”学习形成鲜明对比,后者的训练数据已知,并根据临床结局进行了标记,训练目标明确,并针对手头的特定预测任务。鉴于生成式AI基础模型的不透明性,在健康领域使用这些模型时需要格外谨慎。

预测 vs. 群体推断


AI特别适合大规模预测任务,而且主要也是为该任务而设计。之所以如此,部分原因是在这类任务中,模型的训练目标明确,有关预测准确性的评估指标通常也明确。自适应模型和算法可利用大量带标注数据,发现与所关注结局相关的协变量模式。预测疾病风险就是一个很好的例子。然而,大多数医学研究的最终目标并不是明确地预测风险,而是了解更广泛人群的某些生物机制或致病原因,或协助开发新疗法。

在个体层面运行的良好预测模型与对群体的推断能力之间存在证据缺口。统计学主要涉及群体推断任务,以及从一项研究获得的证据可否外推并帮助我们理解更广泛群体中的科学假设。预测是一项重要但较为简单的任务,而科学推断往往对机制理解产生较大影响。正如希波克拉底所言,“知道什么样的人得病比知道一个人得什么样的病更重要”。

之前几年的COVID-19疫情就是一个例子。有多种预测工具可确定一个人是否感染SARS-CoV-2 ,但从预测个体感染到推断群体感染率及了解整个人群中的高危亚群则是更具挑战性。

使用预测工具面临的另一个挑战是,衡量和报告预测准确性的方法有很多种,例如使用接受者操作特征曲线下面积、精确率和召回率、均方误差、阳性预测值、误分类率、净重分类指数和对数概率计分等指标。选择适合具体情况的指标至关重要,因为其中一种指标的准确性可能无法转化为另一种指标的准确性,也可能与具有临床意义的性能或安全性指标无关。相比之下,群体统计的推断目标和被估量往往不那么模糊,而且可通过P值、置信区间和可信区间更清楚地描述不确定性。尽管如此,稳健、准确的AI预测模型表明,数据中存在可重复信号和稳定关联,有必要进一步研究。贝叶斯方法通过联合概率模型,在预测和推断之间建立了内在联系。

AI预测方法和统计学推断交汇处的一个有趣领域是因果机器学习,它特别关注推断量。采用结构性因果建模或潜在结局框架,利用有向无环图等工具,通过领域知识降低AI模型犯数据驱动错误的概率,例如错误指定暴露与结局之间的时间关系,以同时由暴露和疾病引起的变量条件,或者突出虚假关联,如生物标志物研究中的批次效应。因果推断方法也可应用于AI对影像学或病理学图像的解读,以及临床决策和诊断,并有助于处理高维混杂因素。

外推性和解读


解读AI结果时面临的一个挑战是,内部特征表征算法的设计可根据手头任务自动调整其复杂性,且某些方法几乎具有无限灵活性。这种灵活性是一大优势,但也需要注意避免过度拟合数据。在训练过程中使用正则化和受控随机优化模型参数有助于防止过度拟合,但也意味着AI算法对统计学自由度和自由参数数量界定不清。因此,不能使用传统的统计性保证来防止过优化,而必须使用交叉验证和保留样本等技术模拟真实的样本外性能,但这样做的代价是减少了可用于发现的数据量。这些因素加在一起,有可能对结果的外推性和再现性产生过度解读。

医学科学家规划AI研究时应注意做到以下几项:发布所有代码,并提供有关模型拟合和保留数据的明确说明,以便于外部对研究结果再现性进行评估。McKinney等最近发表了一篇根据乳腺X线检查,通过AI预测乳腺癌的论文,论文发表后,HaibeKains等呼吁提高透明度:“McKinney等在他们的研究中展示了AI在乳腺癌筛查中的巨大潜力。然而,由于缺乏详细方法和算法代码,其科学价值大打折扣”。将传统的统计学预测方法与可解读的AI方法结合使用,有助于理解预测信号,并且可减少不合理关联。

AI方法可能有助于将具有大量特征的数据集筛选成较少特征,然后使用传统统计学方法进行检验。随机森林、XGBoost和贝叶斯加性回归树等流行的AI方法均提供协变量的"特征相关性"排序,而最小绝对值收敛和选择算子等统计学方法则将明确变量选择作为模型拟合的一部分。虽然许多AI程序可能无法有效区分高度相关变量,但使用较少AI选择特征的标准回归技术可以做到这一点。缩减特征还有助于人工分析师检查数据,并根据既往学科知识对分析施加额外限制。

表1. 人工智能统计学与传统统计学的异同

图片


AI方法对临床和流行病学研究中传统统计学分析的一些最新趋势提出了挑战。研究药物的随机试验一直有严格标准,并且担忧过度解读次要终点和亚组分析结果,这导致人们更加关注对主要假设的预设描述和对总体错误率的控制,以减少假阳性结果。现在的试验方案通常会设定精确的被估量和分析方法,用于获得推断的P值,还可能包括需要校正的协变量和数据完成后需要填写的虚拟表

相比之下,AI方法通常会在数据中寻找未预设的模式,因此,除非采用严格程序评估研究结果再现性,否则出现假阳性结果的可能性会增加。此外,高度自适应AI算法会沿袭训练数据中可能存在的所有偏倚和不具代表性,使用黑箱AI预测工具时,很难判断预测信号是否源自数据中隐藏偏倚所造成的混淆。可解读AI(XAI)领域的方法有助于对抗不透明的特征表征学习,但对于安全性是关键问题的应用领域,AI模型的黑箱性质需要仔细考虑和论证。

稳定性和统计性保证


医学科学是一个观察和完善假设的迭代过程,实验、分析和推测循环往复,推动进一步实验,最终形成一定程度证据,反驳现有理论,支持新疗法、生活方式建议或两者兼而有之。包括传统统计学方法和AI算法在内的分析方法用于提高上述科学循环的效率。根据医学研究报告中的证据制定决策的背景和后果对患者健康有着重要影响。

在很大程度上,传统医学统计学中对防止假阳性结果的关注集中在此类结果的潜在临床后果上。例如,一种无益且可能产生不良反应的药物如果获批,可能会对患者造成伤害。在遗传学分析中,如果错误地断定某个染色体片段或基因变异与某种疾病相关,会导致我们浪费大量精力去试图了解因果关系。因此,该领域一直坚持认为,在全基因组研究中,有关连锁的高LOD(几率对数)值和有关关联的极小P值是上述关联可能代表真正阳性结果的先验证据。相反,如果分析数据是为了决定是否在某人浏览器上显示特定广告,那么随机配置中即使很小的改进也是改进,而错误只会给广告商带来经济损失。

医学统计学分析与AI分析之间的这种差异对AI影响医学科学的潜力产生了影响,因为大多数AI方法都是在医学之外的其他领域设计,也是为了提高在其他领域的性能而不断发展。在医学科学中,利害关系更大,因为结论可能会用于临床,或者至少假阳性结果会耗费科学资源,分散科学家注意力。医学科学界要想高效、安全地开展工作,就必须相信分析和报告的稳健性和稳定性。随着多种数据技术的整合和数据融合,AI研究的复杂性不断增加。因此,评估包括数据工程和模型选择在内的端到端稳定性变得至关重要。

为AI研究结果提供统计性保证的方法(如随机试验中的亚组分析或观察性研究)可能有所助益。在机器学习运营这一结合了机器学习、软件开发和信息技术运营的新兴领域,人们尤其关注数据工程在AI开发周期中的重要性,以及“垃圾进、垃圾出”的问题,在没有谨慎人工干预的情况下,上述问题会影响自动机器学习。

在医学科学领域的数据分析中,我们进行“不可知论”分析的例子比比皆是,因为具体假设并不存在,或者即使存在,也是笼统的。这显然会导致大量多重性问题。多重性可通过Bonferroni校正等标准方法或明确通过对假设的贝叶斯先验设定来控制。另一种标准方法是根据AI预测结果可否再现,在独立数据集中验证研究结果。如果无法进行上述独立验证,我们就必须通过样本内分割的方式模仿上述方法。将数据分成两个数据集,一个作为发现数据集,一个作为验证数据集,这样可以为发现数据集结果提供统计性保证。

统计学意识和统计学艺术


在应用统计学的艺术以及训练有素的统计师或流行病学家的技能中,有许多涉及数据之外的因素,因此无法单纯通过数据驱动的AI算法来捕捉。这些因素包括精心设计实验、理解研究问题和研究目标、在现有知识基础上根据研究问题定制模型、考虑确认偏倚和选择偏倚以及对看似好得难以置信的结果抱有健康的怀疑,然后对模型进行仔细检查。通过“人在回路”(human-in-the-loop)开发方法(AI支持和协助人类专家的判断),将这些技能应用到AI研究中,将提高AI方法的效果和接受率,并突出需要解决的方法和理论缺口,以造福医学科学。AI对医学科学大有助益。统计师应拥抱AI,而AI领域也将受益于统计学思维的提升。

参考文献

Hunter DJ, Holmes C. Where medical statistics meets artificial intelligence. N Engl J Med 2023;389:1211-9. 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多