分享

Nat Rev Chem|实验化学中的数据科学进展:案例和建议

 智药邦 2022-05-09 发布于上海

实验化学发展的同时,数据科学不断进步。

2022年4月21日,Nat Rev Chem杂志发表了来自劳伦斯伯克利国家实验室Francesca M. Toma等人的文章,文章介绍了数据科学改变实验化学的案例,并就如何进一步整合数据科学和实验化学给出了若干建议。

1 摘要

物理科学正越来越多地利用现代数据科学提供的可能性来解决实验化学中的问题,并有可能改变我们设计、进行实验和理解实验结果的方式。成功地利用这些机会有相当大的挑战。

本文提供了数据科学如何改变实验方式的案例,并概述了进一步整合数据科学和实验化学以推进这些领域的机会。

我们的建议包括:在化学家和数据科学家之间建立更紧密的联系;开发针对化学的数据科学方法;整合算法、软件和硬件,从一开始就"协同设计"化学实验;并将各种不同的数据源组合成一个用于化学研究的数据网络。

2 前言

数据驱动的技术,如机器学习 (ML) 和人工智能 (AI),正在迅速成为科学研究不可或缺的工具。新兴的数据驱动的合成、光谱解释和最佳实验设计方法现在已经显示出了推进实验化学的潜力。例如,将这种数据分析方法与自动化或实验室机器人技术相结合,可以实现准自主性 (quasi-autonomous) 的研究,只需最少的人力投入。

数据科学和实验化学的平行发展,迅速扩大了这些领域的整合机会。鉴于实验方法、数据采集技术和将其组装成实验工作流程的多样性,可能的工作流程和设计实验的方法的数量远远超过了人类研究人员迄今为止所实现的方法的数量。数据科学方法有望帮助设计工作流程和指导实验,以扩大实验化学的范围,提高化学家探索实验和合成的速度和效率。

利用这些机会将需要化学和数据科学的根本性进步,以及改变我们进行实验的方式,特别是开发促进大规模数据收集、共享和分析的技术。同时,验证基于数据科学的解释和预测的结果将是至关重要的。

本文讨论了数据科学是如何改变我们进行实验的方式的,利用案例研究来强调重要的发展,并总结了利用这两个领域的进步所需要的东西。

3 数据科学的视角

科学总是被数据和理论的相互作用所驱动。数据可以来自观察、模拟或实验,有助于假设和理论的发展。理论将理解编码化,提供预测,往往能够推断出实验中未探索的领域,并提供概念框架来建议新的实验和可能感兴趣的区域。这种相互作用是科学理解的核心。

检测器、计算和算法方面的技术进步加速了这种相互作用所带来的挑战和机遇,它们大大增加了数据采集率,扩大了可用于分类、分析和解释数据的工具范围。在一些实验中,许多类型的实验数据的获取不再是”昂贵的",大量的数据可以很容易地被积累。

不断增长的数据科学领域为结合算法、硬件和高通量数据采集方式的进步提供了无数的可能性。化学科学的进一步发展将需要系统地利用和发展这些工作,增强传统的理论方法,有选择地指导新的方法,以处理大量的数据和巨大的可能性。

数据驱动的科学的一个重要组成部分是,数据本身可以提供对过程和机制的洞察力,而不需要伴随的理论和模型。在没有基于理论的路线图的情况下分析数据,是理解不断增加的数据的关键。这听起来比实际情况更激进:依靠观察来确定 (有时甚至是证明) 预期,往往是在理论和模型之前出现的。数据科学拥抱分类的重要性,以及在大型的、复杂的数据集中识别稳健的相关性,这在历史上一直是理论进步的支柱,但现在需要新的方法来处理日益增长的数据量和不断加速的数据采集率。

对能够解释和归类数据的先进技术的需求是科学过程中越来越关键的部分。数学算法的进步,广义上包括核心数学思想 (如近似理论、线性代数和微分方程,以及统计学、信号和图像处理、ML和AI),在从数据中提取知识和加速数据-实验-理论相互作用的科学进步方面发挥了作用。随着实验越来越复杂,仪器和探测器越来越快,分辨率越来越高,这些需求将变得越来越普遍。

需要新的人工智能和ML算法的两个主要领域是:第一,在数据产生时分析和指导实验的技术;第二,对越来越大的数据集进行后处理。在第一个领域,在空间和时间分辨率大幅提高、生成速度越来越快的情况下,可能无法足够快地进行正式的数学重建和分析。在这种情况下,将需要由人工智能和ML增强的算法来快速整理结果,以确定一个实验的方向是否正确。在第二个领域,也许有可能从收集的数据中提取比以前想象的更多的理解,而这些可能埋藏在数据中的理解可以通过这些新技术来揭示。

数据科学解释是否会成为传统的基于模型的科学理解的增量步骤,或者最终将与基于模型的理解处于平等地位 (并且在某些领域,超越),目前还不清楚。即使没有数据科学革命,数据科学也会使我们产生和解释科学数据的方式发生变化。我们面临的挑战是要有一个可靠的方法来确定我们是否有足够的实验、足够的数据或足够的观察,以证明我们有理由做出具有量化不确定性的预测。

在最激进的理解中,人工智能和ML技术表明,人们不需要对执行什么实验、观察什么变量以及对收集的信息赋予什么权重有先入为主的概念。当然,人工智能和ML算法依赖于隐藏的假设和偏见,包括对接近性、相似性和结构的定义。尽管如此,这些方法的想法和承诺是,算法本身将检测出重要的关系,即使这些关系没有以分析模型、可传播原则或基础理论的标准形式揭示出来。

然而,目前还存在很多与ML相关的挑战。

Box1 与ML和AI相关的挑战

机器学习通常被应用于出错代价较小的用例中。在科学领域,和其他领域一样,情况并非总是如此。考虑到这一点,批判性地评估ML方法是否适合应用于科学或其他领域的重要问题包括

应该用什么标准来信任ML或AI的输出?也就是说,什么程度的验证是必要的,以及在什么程度上会损害ML或AI方法的效用?

哪些证据是这些方法进行预测的基础?什么时候问这个问题是合理或必要的?

AI和ML能否被用来预测 (以可量化的信心) 用于构建算法的领域之外的现象?目前,AI和ML方法本质上是为插值而设计的,给定一个足够大的与输出相匹配的输入库,这些算法可以接受一个新的输入并结合附近输入的信息来预测一个可能可行的输出。然而,科学发现本质上涉及对新空间的调查 (外推或预测),这与迄今为止ML算法发展的主要重点形成鲜明对比。

这些方法的一个经常被提及的优点是它们是可迁移的:一个领域的预测方案可以应用于其他看似不相关的领域。如何才能知道预测是否以及何时可以在不同领域之间迁移?

尽管有这些挑战,并且没有明确的路径来同时解决这些问题,但机会是难以忽视的:越来越多的数据可用,而更好的方法来使用它将提供新的见解。Box 2中列出了数据科学可以改变实验化学的三种模式。

Box2 数据科学可以改变实验化学的三种模式

从现有的、不完善的实验数据中提取更多信息

在现实中,真实数据是不完整的 (不是所有相关的系统参数都被测量)、不均匀的 (来自于一个或多个经常是未知的变量的不同值) 和有噪声的 (如非高斯像素噪声和不准确的时间戳)。标准的数据分析方法通常会连续拒绝”异常值",以获得一个足够均匀的数据集,并通过平均法进行传统分析。

相比之下,机器学习方法试图”学习”数据所跨越的空间,如确定实验过程中的反应坐标 (集体变量),并使用整个数据集的信息内容来重建反应坐标空间中任何一点的系统。这为从数据中提取比传统方法更多的信息提供了一个防噪音的方法。

优化设计实验和工作流程

具有许多输入参数的复杂实验在高维空间中产生样本点,而系统地浏览这些空间的挑战正迅速超过人类的能力。数据驱动的方法可以实时学习并对实验进行优化控制,结合先前的知识,有效地找到未充分解决的区域和/或感兴趣的区域。这种”即时”的数据方法可以帮助实验有效地覆盖感兴趣的系统发生重要的、功能相关的变化的景观。

提供新的实验模式

新一代的高通量仪器与快速分析超大数据集的算法能力相结合,提供了新的实验模式。例如,化学反应事件经常通过很少见的过渡态发生。到目前为止,为了获得一个系统在过渡状态下的情况,需要进行复杂的时间分辨实验。而一个”足够大”的快照数据集将包括高能量的构象。这样大的数据集为研究重要的化学过程提供了机会,而不需要及时跟踪每个过程。

在下面的章节中,我们提供了一些来自化学科学的案例研究,突出了实验和数据科学之间互动的进展和潜力,随后讨论了未来的挑战。

4 数据科学和化学科学

如上所述,数据科学方法有望实现至少三个重要目标:从现有的、不完善的实验数据中提取更多信息,优化设计实验和工作流程,提供新的实验模式。在化学科学领域,在实现这些目标方面已经有了显著的进展,而且潜力巨大。同时,也存在着局限性和陷阱。在下文中,我们将举出多个领域的案例。

案例可以分为三类:ML引导的发现的案例、用数据科学驾驭复杂性的案例、数据驱动的实验性发现的案例。

ML引导的发现

传统上,实验要么是由直觉来引导,要么是由事先选择和实施测量计划的方案来引导,与测量结果无关。这两种方法都不太有效:直觉的方法需要高度训练有素的专家持续关注,而穷举的方法则通过收集大量可能多余的数据浪费仪器时间。

随着实验变得更加复杂,这些方法变得更有问题。核心问题不是简单的效率问题,而是高维参数空间的组合产生了一组可能的配置,这些配置太大,无法用预先安排的策略进行系统的探索。

图1: 数据科学在实验过程中的作用

数据科学在实验过程中可以有很多作用,比如在自主合成和表征方面。a-d | 为了完成实验任务 (灰色箭头),需要几种技术,必须有数据流 (红色箭头) 进出存储库。

ML和AI的进步提供了实现这些目标的机会。首先,对于一个实验的输出,ML和AI的技术可以在其他实验和模拟结果的背景下评估收集的数据。例如,晶体学数据训练的模型可以用来预测晶体学维度和来自薄膜X射线衍射图案的空间群。其次,鉴于实验的分析结果,新兴的数据科学技术可以用来有效地建立替代模型。经过适当的设计,这些模型可以利用分析后的输出数据,快速估计出可用于指导实验的结果。

这种在收集数据时自动评估数据,然后提出新的方向的能力,在整个实验科学中都有应用。这种方法可用于查询和引导多维过程,并为传感器和数据收集点提供信息,确定哪些点能提供最新的信息。

文章介绍了传统实验室中的自主实验的案例和同步辐射光源的自主转向的案例。

用数据科学驾驭复杂性

尽管传统的方法已经产生了许多令人印象深刻的成功,但在样本和实验控制方面不可避免的限制给实验设计带来了相当大的局限性。数据科学方法可以增加和扩大实验科学的范围,既可以加速实验的分析和解释,也可以在控制不实际或有可能不理想地改变所研究的现象时使实验成功进行。例如,目前应用于结构和图像重建的数据科学技术可以从噪声和不确定性比以前更大的测量中提取信息,大大增加了”可行的”和富有成效的实验。

在实验计划和分析中采用数据科学方法使科学家能够重新想象我们设计和进行实验的方式,将重点从控制关键参数转移到测量关键参数空间内的波动。

通过对复杂的实验参数空间进行实时采样,预先计划的实验被即时的自适应方法所取代,从而减少获取信号所需的时间,并减少数据冗余的问题。此外,替代方法可能不依赖于单一的高信噪比输出,而是依赖于许多更弱 (但容易收集) 的信号来进行化学测量。将快速的ML赋能和AI赋能的分析整合起来,可以实现数据驱动的自主实验工作流程。

在这里文章介绍了从实验室元数据中识别自然实验、X射线自由电子激光器、化学中的动力学理论的案例。

数据驱动的实验性发现

由假设驱动的研究,通常来自于先前的知识,并依赖于测试一个假设的结果,可能会限制探究和探索。

与化学家精心挑选和进行几个实验相比,ML和AI的方法更倾向于进行更大规模的组合实验,以探索更广泛和更少偏见的搜索空间。短期目标只是在最广泛的搜索空间内进行更多的实验,更长期的目标是使用ML和AI来加速表征过程并优化新实验的选择。

数据管理和网络

实现新的化学实验范式需要人类和人工智能研究人员获取广泛的化学信息。最理想的是,这些信息包括各种过程和特征数据,以及为实验提供背景的元数据。我们将其称为”数据网络"。

在本节中,我们将描述一些重要的实验和数据科学工作,这些工作需要通过数据网络建立知识库,对科学领域的现状进行编码,并促进数据科学方法在化学实验中的应用。

鉴于现在化学实验所产生的数据量,以及人们对加速研究工作流程的渴望,越来越多的人努力以与研究同步的速度建立知识库。一个特别成功的例子是蛋白质数据库 (PDB)。类似的机器可读实验化学数据库将是数据科学的一个分水岭。

一旦有了数据网络,就可以通过人工智能驱动的现有知识的封装来加速假设的产生和测试。例如,基于高通量密度函数理论计算数据的网络可以由人类通过网络可视化使用MaterialNet进行探索,而其网络指标可以在ML模型中用于预测 (或假设) 新无机化合物的合成性。这种假设测试的模式,建立在上面关于数据驱动的实验发现一节所讨论的概念之上,与首先提出假设,然后设计和完成实验,再进行任何验证的周期明显不同。

当然,训练模型以使用来自多个来源的数据并非易事,而开发使用和连接来自不同来源的异质数据的技术是一项重大工程。

5 建议

ML和AI正在迅速改变实验知识的意义。它们提供了丰富的信息和分析工具,应该成为每个科学家的工具箱的一部分。当然,必须谨慎使用ML技术,一些挑战包括:在一个数据集上训练的算法是否可以用来在不同数据集上产生可靠结果;一个特定的算法是否对噪音或试图欺骗它的行为具有鲁棒性;一个算法提供的答案的原因是什么;以及这些答案是否没有偏向。

尽管如此,即使有这些挑战,ML和AI仍有巨大的机会来改变实验化学。利用这些机会,需要数据科学界和化学界积极参与,利用现有的工具,将特定领域的知识注入其设计中,并定制和定位这些技术 (图5)。在下文中,我们概述了一些建议,希望能有助于促进这种参与。

图5:实验、工作流程和数据的相互作用

实验在工作流程中进行,根据先前的数据做出决定,产生新的数据,描述实验和工作流程以及调查的材料和化合物的特点。

发展化学的数据科学方法

了解现有算法对化学数据集的限制,并为需要新方法的化学问题开发特定的ML工具。

数据集和软件的可重复性很重要。期刊应该大力鼓励或要求将数据和软件存放在符合FAIR (可查找、可访问、可互操作和可重用) 原则的存储库中。除了传统的内容审查外,可能还需要对数据和代码进行同行审查。

扩大数据驱动方法在化学科学领域的覆盖面和适用性

数据驱动方法在本质上是插值型的,通常通过利用密集的、附近的和已知的解决方案库来获得结果。在数据集足够大的情况下,这种插值方法往往足以解决许多科学问题。

建议开发在高维参数空间中使用稀疏表示的ML方法,为理解内插测量的准确性和外推方法的适用性提供指导。

通过整合测量和观测工具、机器人技术、数据管道和计算资源来改造研究工作流程

数据科学方法可以加速决策的制定。为了利用这种可能性,我们需要集成的实验室自动化系统,建立一个良性循环。由自动化系统或机器人进行的实验是”天生的数字化的",这减少了数据共享和重用的障碍,并促进了更好的数据科学方法的发展。

应该鼓励开源硬件,并将相关的计算机辅助设计 (CAD) 文件和控制代码存入适当的存储库,如开放硬件存储库。鼓励对硬件、软件和算法开发采取共同设计的方法。

整合不同的数据源

结合不同类型的数据源可以提供比任何单一数据类型更有力的证据。

建议开发更好的表示数据网络的方法,以机器可读的方式对证据之间的关系进行编码。为全面的数据共享创造资金、引证和其他激励措施,并通过建立共享资源库和其他机制,减少数据沉淀和访问的技术和社会障碍。

参考资料

Yano, J., Gaffney, K.J., Gregoire, J. et al. The case for data science in experimental chemistry: examples and recommendations. Nat Rev Chem 6, 357–370 (2022). https:///10.1038/s41570-022-00382-w

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多