分享

脑成像研究中的机器学习

 钟山紫竹林 2019-04-07

声明:本公众号的所有文章,除特别注明非原创外,均为自己原创或翻译。近期,发现有公众号转载了自己的文章,不胜欣喜。本着交流、学习的目的,非常欢迎转载,但务必请注明出处,谢谢

近年来,机器学习在脑成像领域中的应用越来越多。其中,最常用的机器学习方法旨在从已有的数据中找到潜在的模式,用于对未来数据的预测或者分类,比如用于脑疾病的分类或脑状态的解码。作为一种通用的方法,机器学习方法不仅可以应用于MRI或 fMRI 图像,也同样可以应用于其它模态的脑成像数据中。在之前的研究中,自己也曾将这一方法应用到了基于EEG信号的研究中。实际上,基于 EEG 信号的脑机接口(brain-computer interface,BCI)技术曾经长期是机器学习在脑成像领域的最主要应用。近日,Organization for Human Brain Mapping (OHBM)的博客上发表了一篇博文,介绍了机器学习的基本概念和方法(可点击“阅读原文”查看英文博客原文)。这里翻译出来,分享给大家。

最近,机器学习(machine learning)、深度学习(deep learning)和人工智能(artificial intelligence)这些术语越来越多地出现在我们的生活中:比如,在媒体,招聘广告 ...... 以及在脑成像领域的学术会议上。机器学习经常被描绘成一个神秘的黑盒子,几乎可以解决将来的所有问题,甚至取代我们的工作。在这篇博文中,我们将讨论“机器学习”这个术语的实际含义、它包含的方法以及这些方法如何应用于脑成像分析。OHBM OnDemand 在线材料中包含了一些解释机器学习方法的视频,并提供了如何在各种应用中使用它的示例。如果你对机器学习感到好奇,但不确定是否想要加入其中,那么,希望这篇文章适合你并帮助你入门。

图片来自 Deep Learning in Neuroradiology,American Journal of Neuroradiology October 2018, 39 (10) 1776-1784; DOI: https:///10.3174/ajnr.A5543

1、什么是机器学习?

机器学习包含的内容很广泛,不仅包括深度学习,本文下面将要介绍的方法也包含在内。其中的很多方法,你可能已经在经典的统计学(statistics)中听说过甚至比较熟悉,比如线性回归(linear regression)。虽然机器学习“建立在统计学的基础之上,并且在多年的发展过程中,吸收了它的许多方法和技术”(Max Welling,2015),但机器学习的一个重点在于泛化能力(generalization),即通过训练一个计算模型(computational model)找到数据中潜在的模式(pattern),并采用这个模式来对该模型所未见过的、具有相似或相同特点的数据进行预测。在这里,需要找到“过拟合”(overfitting,拟合得到的模型过于复杂,以至于只能用于训练它的数据)和“欠拟合”(underfitting,拟合得到的模型过于过于简单,以至于即使用在训练它的数据上的结果也很差)之间的平衡点,目标是使用于新数据时兼具高灵敏度(sensitivity)和高特异度(specificity)。为了达到这个目标,通常会将数据分成几组:首先,在一组数据上训练模型参数,然后,在另一组数据中评估该模型以选择最佳模型参数,最后,在第三组数据中测试它。有时,也会把具有统计基础的机器学习方法称作“统计学习”(statistical learning)。Introduction to statistical learning The Elements of statistical learning 就是两本优秀的介绍统计学习中重要概念的教科书。

2、什么是人工智能?有什么不同的地方吗?

人工智能是一个高级的概念性术语(conceptual term),它描述的是在机器中模仿“自然智能”(natural intelligence)的运动。 机器学习被认为是一组可以使机器更加“智能”的统计工具。

3、机器学习中有哪些方法?

应用于神经成像的最流行的机器学习技术可以分为两大类:有监督(supervised)和无监督(unsupervised)学习。有监督学习需要被标记的数据(labelled data,例如已被标记或分类的数据),而无监督方法则是检测未标记数据中的模式。不同的机器学习方法在其复杂性方面也有所不同。这两种类型的机器学习方法都可以从相当简单的线性模型到更复杂的非线性算法。模型越复杂,所需的计算能力(computational power)就越强。

虽然机器学习已经存在了很长时间,但最近受到越来越多的重视。在 Vince Calhoun 的 OHBM OnDemand 视频中(6分30秒处),他解释了原因:这不仅是因为有越来越多的数据可用,也是因为计算能力有了巨大的提高(不过训练神经网络有时仍然需要数周时间)以及在开源工具中开发和实现的更好的算法。

下面我们将讨论有监督和无监督学习的一些重要方法。我们还将讨论一些脑成像研究中独有的方法,如多体素模式分析(multivoxel pattern analysis,MVPA)。

3.1 有监督学习

正如 Christophe Phillips 在 OHBM 2017 关于模式识别的课程(4分34秒处)中所描述的,有监督学习的思路是通过训练,找到已观测数据(如fMRI图像)和解释变量(explanatory variable)之间的映射(mapping),这个解释变量可能是被试的疾病标签或认知评分。然后,我们可以使用新的、未标记的受试者并预测他们的疾病类型或认知评分。

Christophe进一步解释(7分10秒处),有监督的机器学习问题可以进一步细分为离散的分类预测(discrete classification prediction)以及连续的或回归预测(continuous, or regression, predictions)。无论采用哪种方式,有监督学习(10:50分钟处)最终依赖于输入和目标变量之间的映射函数、该函数的形状以及其参数的优化。 以下是一些常用的算法。

3.1.1 线性回归(linear regression)

作为一种经典的统计技术,线性回归已经为大多数人所熟悉。然而,这种历史悠久的方法已经重新焕发生机,成为一种有监督学习方法。我们可以将线性回归视为一种预测技术,它使用一个或多个特征来预测一个具有连续值的响应(response,7:35分钟处)。将线性回归作为标准统计工具或机器学习工具使用,这两者之间的主要区别在于,在机器学习中,我们会测试线性模型对未见过的数据的预测能力(predictive power),而这些数据对该模型的训练没有贡献。

3.1.2 逻辑回归(logistic regression)

本质上,逻辑回归背后的理念与线性回归完全相同。唯一的区别是由数据中拟合出的映射函数。在线性回归中,我们拟合出的是一条直线(line),或者在n维空间中对它进行一些推广,即平面(plane)或超平面(hyperplane),而在逻辑回归中,拟合出的是逻辑函数(logistic function)。该函数是一个“S形”的曲线。逻辑函数具有非常好的有界性(通常将这些边界设置为0和1),因此,可用于表示概率。 通过设置阈值(cut-off),通常是一半,可以使用逻辑回归对我们的样本(sample)进行分类,例如,划分为患者组和对照组。

3.1.3 支持向量机(support vector machine,SVM)

支持向量机(SVM)是一种分类算法,其目的是在数据点集之间划出一条决策(或分类)边界,以便最大化不同数据集合之间的“分离”(或间隔,margin)。虽然这听起来相当简单,但通常情况是,数据点不容易通过直线或平面分离,例如,一个圆嵌入另一个圆的情形。kernel SVM 则使用“核”(kernel)将数据转换到另一个空间,在这个空间中可以更容易地将两类的样本点分开。Christophe 在他的讲座中描述了核和SVM(从17:00开始)。除此之外,SVM中还有一些其他参数,例如正则化(regularization)参数,gamma 和间隔,这些参数对于定义分类超平面对训练数据的分离程度非常重要。有关SVM的更一般性的讨论,下面这篇文章在解释基础知识方面做得很好:

https:///machine-learning-101/chapter-2-svm-support-vector-machine-theory-f0812effc72

3.1.4 深度学习(deep learning)

深度学习是目前最受关注的机器学习算法类别之一,也是最能够使公众兴奋的算法。虽然它被广泛地宣传,但深度学习模型通常被视为黑盒子,因为不管是从分析角度,还是从直觉角度,它的输入-输出映射都让人难以琢磨。在 Vince Calhoun 的关于深度学习方法的 OHBM 教育讲座中,他解释说,深度学习的基础在于人工神经网络(artificial neural network,ANN)。实际上,尽管近年来越来越流行,但神经网络建模可以追溯到20世纪50年代,当时,人们对创建生物神经元的数学模型很感兴趣(Hassabis 等人在2017年的一篇文章激发了关于神经科学与人工智能之间关系的讨论)。这种神经元模型被称为感知器(perceptron)。最基本的神经网络类型是多层感知器(multilayer perceptron,MLP),其中,人工神经元(感知器)以层级结构进行排布。输入信息在神经网络中逐层传播:首先,通过每个节点中的激活函数(activation function)传播,然后通过连接(权重,weight)依次向后传播到后续的各层。深度学习的“深度”是指隐藏层的数量更多,隐藏层即神经网络的输入层和输出层之间的层。近年来,计算机技术的进步使得训练更深度的网络成为可能。Vince 描述的深度神经网络有受限玻尔兹曼机(Restricted Boltzmann Machines,7:10分钟处)、深度信念网络(deep belief network,8:20分钟处)、卷积神经网络(convolutional neural network,16:35分钟处)等。

图片来自 Deep Learning in Neuroradiology,American Journal of Neuroradiology October 2018, 39 (10) 1776-1784; DOI: https:///10.3174/ajnr.A5543

与其它有监督学习算法一样,深度学习需要训练数据集和测试数据集。此外,拥有的层越多,通常需要的(已标记的)数据和计算资源就越多。实际上,一旦计算能力提高到深度网络可行的程度,特别是在图形处理单元(graphical processing unit,GPU)可用之后,深度学习就越来越受欢迎,而 GPU 等硬件芯片最初是为加速处理数字视频和图形渲染而开发的(3:10分钟处)。

图片来自 Deep Learning in Neuroradiology,American Journal of Neuroradiology October 2018, 39 (10) 1776-1784; DOI: https:///10.3174/ajnr.A5543

3.1.5 多体素模式分析(MVPA)

在结构和功能MRI数据的经典分析方法中,即一般线性模型(general linear model,GLM)的应用中,每个体素是被分开考虑的。由于它采用线性方程,所以,该方法在数学上是简洁和易处理的。然而,这种“大量单变量分析”(massive univariate)方法忽略了体素之间的相互依赖性(参见 Robert Cox 在4:16分钟处谈论 fMRI 分析方法,以及Mike Pratt在0:35分钟处的讨论)。考虑到脑的动态活动往往牵涉到整个脑的网络,单个体素的独立性假设是有争议的。为了解决这个问题,一类更新的统计模型——多体素模式分析(MVPA)被引入进来,以解释大脑中多个体素的联合贡献对于感兴趣的现象的影响(参见 Janaina Mourão-Miranda在6:08分的讲话)。也就是说,MVPA描述了一类模式识别(pattern recognition)技术,这些技术在 Mike Pratt 关于 MVPA 的演讲(3分33秒处)以及专注于 MVPA 的 OHMB 2017 会议中有展示。

MVPA 借鉴了机器学习中常用的算法策略。首先,将数据分成训练集和测试集。然后,采用训练集数据和分类器(classifier,例如,SVM)对模型进行训练,以区分对应于不同实验条件(experiment conditions)的多体素模式,并在测试集上对该模型进行验证(validation)。上述验证是通过将多体素测试集数据输入到训练模型中,来预测其所处的实验条件,这经常被称为解码(decoding,参见 Bertrand Thirion 在5分38秒以及 Mike Pratt 在8:04分钟处的演讲)。在解码中,我们试图从多尺度神经过程(multiscale neural process)中预测其所代表的内容,例如感知或认知状态等,这些状态在多数情况下是由实验条件诱导出的(Pratt在11:55分钟处的讲话)。分类器可以是线性的或非线性的,不过,每种都有其自身的局限性。线性分类器(例如,线性判别分析,linear discrimination analysis,LDA)被认为更容易训练和解释,然而,它们的灵敏度取决于每个体素在观察到的模式中的贡献(参见 Jo Etzel 在18:00分钟处的讲话)。尽管非线性分类器(例如,人工神经网络,参见Vince Calhoun 的演讲)能够在体素模式之间找到更复杂的关系,但它们需要在大型数据集上进行训练。

MVPA 这个术语是由Norman、Polyn、Detre和Haxby于2006年提出的,他们当时是在 fMRI 数据分析的框架内引入了它。 不过,考虑到该术语的更广泛定义,MVPA 所涵盖的大多数方法不仅限于 fMRI ,也同样可以应用于结构成像。

3.2 无监督学习

在有监督学习中,除了输入数据(例如,fMRI图像)之外,我们还需要输出,其可以是标签(例如健康与疾病)或分数(某种认知或行为学得分)。然而,很多情况下,我们要么没有合适的标签,要么所拥有的标签不可靠,例如在精神病学成像中。 在这种情况下,无监督的机器学习方法打开了一扇新的大门。

3.2.1 聚类(clustering)

在脑成像研究中,无监督聚类技术最为人所知的应用是脑区分割(brain parcellation)。 脑区分割不是一个新问题,也不一定要涉及机器学习。 所有神经影像学家都听说过19世纪的神经解剖学家 Korbinian Brodmann 根据细胞结构(cytoarchitecture)标记了大脑区域,这是最原始的脑分区方法。正如 Simon Eickhoff 在去年的主题演讲中解释的那样,细胞结构不是分割大脑的唯一特征,还有其它一些,如受体结构(receptor architecture)、皮质髓鞘结构(cortical myelin structure)和连接结构(connectivity structure)。

无监督聚类方法比较理想的应用场景是,当我们已经知道观测到的数据中存在与感兴趣特征相关的差异,而我们想要根据这些特征自动对脑区域进行分组。最简单、也可能是最广泛使用的技术是k均值聚类(k-means clustering)。在脑成像研究中,可以通过在感兴趣的区域中创建每个体素的特征向量来完成,例如,结构或功能连接信息。 我们可以将这些体素视为n维特征空间中的点。k-means 算法尝试最大化组内相似性(similarity)。不幸的是,k均值聚类需要有分组数量(k)这一先验知识(尽管已经有一些迭代技术试图确定k的数量)。

其他聚类方法,例如层次聚类(hierarchical clustering)或谱聚类(spectral clustering),基本思想相同,都是将数据(在这种情况下是脑体素)分割成多个离散的组,但假设或技巧略微不同。例如,层次聚类假设数据具有层次结构,也就是说可以将整体的脑数据分成两组,而每组又可以继续分成两组,直到我们达到单个体素的水平。当然,也可以从单个体素开始,自底向上进行聚合,直到将所有体素都包括进同一组中。另一方面,谱聚类还有一个额外的步骤(谱变换),它允许忽略比较微弱的相似性。Sarah Genon 在她的教育课程讲座中描述了如何使用扩散MRI数据进行此类分析。

3.2.2 拉普拉斯算子特征映射/扩散嵌入(Laplacian EigenMaps / Diffusion Embedding)

有时,你可能对将体素分组为固定数量的几块(parcel)不感兴趣,而是根据感兴趣的特征探索感兴趣区域(region of interest)中体素的关系。Daniel Margulies 在他的教育演讲中描述了可用于研究脑连接图(connectopies)或连通图(connectivity maps)的技术。最初的方法类似于上面描述的方法,即为大脑中的每个体素创建一个特征向量。然后,使用相似性度量将这些特征相互比较以创建相似性矩阵。然后,分解该矩阵并获得新的矢量,该矢量可以描述感兴趣区域或整个脑的相似性的主要梯度(primary gradient)。Daniel 的主题演讲描述了如何使用这类分析来阐明宏观皮层连接的原理。

3.3 关联模型(associative model)

关联模型,例如偏最小二乘法(partial least square,PLS)或典型相关分析(canonical correlation analysis,CCA),并不完全是有监督或无监督的学习方法。在有监督学习中,我们通常具有多变量输入(例如,脑图像)和单变量输出(标签)。在无监督学习中,我们只有一组多变量输入数据,例如,用于大脑分割的连接信息。在PLS或CCA中,我们想要发现两组多变量输入之间的关系或关联(例如,脑图像与行为学/临床评分之间)。

正如 Janaina Mourao-Miranda 在她的视频中解释的那样(2分25秒处),精神疾病的标签往往不可靠。为了解决这个问题,她使用关联模型(例如,PLS),试图找到与多变量临床和行为数据的线性组合具有最强相关性的神经影像因素的线性组合。这种方法提供了一种数据驱动的方式来生成标签,可能会为临床条件提供新的视角。

也可以对关联模型进行显着性检验以进行推断(inference)。Valeria Kebets描述了(11:20分钟处)如何执行置换检验(permutation test)以确定哪些成分是显著的,如何确定成分是否在组之间表达不同,最后,哪些变量在驱动所提取的成分。Janaina 还详细介绍了(16:50分钟处)她的团队如何在PLS分析中应用多重交叉验证框架(multiple hold-out validation framework)。

4 将机器学习方法应用于脑成像研究时,有哪些因素需要考虑?

正如前面所探讨的那样,机器学习技术在很多方面为脑成像研究打开了大门。它们可以帮助我们进行依赖于复杂交互的预测,帮助查找我们之前未发现的数据模式,并自动执行耗时的手动任务,例如分割(segmentation)。但是,这种方法的不足或缺陷也必须同时考虑。首先,更复杂和更强大的机器学习技术需要大型数据集。在Andrew Doyle的视频中,他(25:30分钟处)讨论了脑成像领域的应用与经典图像处理问题的区别:脑成像数据通常是非常大且高维的数据,但样本量相对较小。较小的样本量,对于一些应用(例如图像分割或 MVPA)可能不是大问题,但对于其他应用(例如患者分类),却是非常大的问题。Arbabshirani 等人最近的一篇出版物探讨了从脑成像数据进行个体标签的预测具有挑战性的原因。Varoquaux(2018)的另一篇论文侧重于小样本量模型交叉验证所面对的挑战。

当然,数据越嘈杂,需要的数据量也就越多。脑成像数据被认为是很嘈杂的。此外,如果不能提供可靠的标签,即使是最好的有监督学习算法也将无法成功。另一个问题,特别是对于诸如深度学习等更复杂的方法,是如何评估所得模型的生物学意义(biological meaning)。最近的研究进展已经可以使我们更好地理解和评估深层网络中实际发生的事情。然而,由此产生的模型可能无法告诉我们有关生物学或病理学机制的任何信息,甚至可能这些模型仅仅代表了训练数据中存在的偏差(bias),这会限制它们对其他数据的适用性。例如,今年的 replication award 颁给了一项研究,该研究表明某些已发表的模型缺乏普适性。

在完全解决这些问题之前,作为研究人员,我们所能做的最好的事情就是了解我们正在使用的算法及其局限性。这样我们就可以选择最合适的技术,严格应用于合适的样本量并且避免过拟合。幸运的是,有大量关于机器学习技术的在线资源,包括教科书(例如Bishop,2006),Andrew Ng的著名的关于机器学习和深度学习的Coursera课程,以及在线博客和论坛等。来自MRI社区的大量论文提供了用于脑成像的机器学习工具的概述,或者更具体的示例,例如机器学习如何塑造认知神经成像以及如何将机器学习分类器用于fMRI数据等。OHBM OnDemand 上拥有大量的教育课程视频和关于脑成像的机器学习应用的讨论,并且我们也期待今年在罗马的OHBM 上有更多的令人兴奋的教育和研讨会讨论在脑成像研究中使用机器学习技术。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多