【原】CHEM REV｜《原子尺度上的机器学习》特刊介绍

智药邦 2021-09-10

展开全文

近日，化学学科国际顶级期刊Chemical Reviews发表文章，对《原子尺度上的机器学习》特刊进行了介绍。

以下是全文内容。

寻找结构中的模式和数据中的趋势基本上是科学的决定性特征之一，化学也不例外。传统上，化学研究基于来自实验的背景知识、化学直觉和基于物理学的推导，在过去的几十年里，由于社会的数字化转型不断加速，化学研究越来越依赖于计算机的使用。这导致了一个庞大的、充满活力的、多样化的原子模拟社区的形成，该社区现在已经拥有了几十年的专业知识和传统。如今，化学领域的许多典型问题都可以通过模拟来成功解决，如准确预测真空中小系统的振动和电子光谱，或计算配体在明确溶剂中的蛋白质结合亲和力，并与实验测量结果相比较，这说明了令人鼓舞的进步。

越来越多的实验和计算数据，以及对统计学习和数学数据处理方案的信心的增加，使得今天也有可能将一些比较重复的化学研究任务自动化，使我们都能超越传统上依靠传统技术可以做到的事情。例如，对以前获得的大量数据（计算的或测量的数据，这些数据可以从快速增长的文献中获得，或者通过成熟的在线资源库的开放访问/源协议获得）进行机器学习。如今搜索、检测和利用迄今为止未知的模式和趋势很正常，这些模式和趋势"隐藏"在与化学直接相关的高维非线性空间中。

这并不是说基于物理学的模拟技术和直觉驱动的研究已经变得没有意义。恰恰相反，通过量子力学和统计力学的规律，以及通过记录了几十年甚至几个世纪的实验观察的广泛学术研究，对化学的理解已经被证明是非常宝贵的，可以进一步指导、发展和告知数据驱动技术的构思和实施。更具体地说，机器学习和传统原子模型的协同应用继续作为发现的加速器，例如，扩大高端电子结构（high-end electronic）计算的范围、质量和数量。可扩展的近似机器学习，在小系统上进行训练并用于推断更大时间和长度尺度的问题的解决方案，也取得了相当大的成功。最后但并非最不重要的是，统计抽样技术已被重新审视，使复杂转变的分析大大加快和自动化，或改进了对有序参数（order paramters）的预测和理解。总之，我们有充分的机会乐观地认为，历史上繁琐的任务可以被简化，电子和原子的量子行为的苛刻的近似（harsh approximations）可以被克服，对高维度的不利的忽视可以被减轻。我们坚信，这将为在新的水平上进行计算化学研究项目开辟无数的可能性，即具有前所未有的准确性、可靠性和范围。

在剩下的部分，我们简要介绍了这个专题的内容，它可以粗略地分为两类。首先是那些在更普遍的意义上处理原子尺度上的机器学习的综述，即处理原子尺度上结构的统计学上的严格定义，检测重复出现的模式，以及严格确定整个不同化学领域的定量结构-性能趋势。第二类包含的评论集中在预测准确的势能（及相关）的具体问题上，这对所有的分子建模应用都是非常重要的。

整个化学的模式

分子模拟数据的无监督学习方法

Laio和他的同事介绍了越来越多的来自分子模拟的大型数据集的背景下的无监督学习研究，包括方法的数学基础，以及用来适应原子建模的主要思想。

Glielmo A, Husic BE, Rodriguez A, Clementi C, Noé F, Laio A. Unsupervised Learning Methods for Molecular Simulation Data. Chem Rev. 2021 Aug 25;121(16):9722-9758.

受物理学启发的分子和材料的结构表征

Ceriotti和他的同事总结了目前对建立原子结构的数学表征过程的理解，这往往是应用机器学习算法的第一步。他们强调了将最广泛采用的描述符系列结合起来的深刻相似性，以及回归和分类模型与它们的输入的基本描述之间的相互作用。

Musil F, Grisafi A, Bartók AP, Ortner C, Csányi G, Ceriotti M. Physics-Inspired Structural Representations for Molecules and Materials. Chem Rev. 2021 Aug 25;121(16):9759-9815.

将机器学习和计算化学结合起来，预测化学系统

Keith和他的同事们讨论了计算化学和机器学习方法可以结合的更广泛的背景，以及在计算科学和物理科学的交叉点上的方法的简明教程。

Keith JA, Vassilev-Galindo V, Cheng B, Chmiela S, Gastegger M, Müller KR, Tkatchenko A. Combining Machine Learning and Computational Chemistry for Predictive Insights Into Chemical Systems. Chem Rev. 2021 Aug 25;121(16):9816-9872.

分子的电子激发态的机器学习

Westermayr和Marquetand总结了使用机器学习来预测量子特性的技术现状。特别是电子激发态，它在光化学和光物理过程中发挥着基本作用。涉及多个方面，从吸收光谱的计算到激发态的动力学和非绝热效应。

Westermayr J, Marquetand P. Machine Learning for Electronically Excited States of Molecules. Chem Rev. 2021 Aug 25;121(16):9873-9926.

过渡金属复合物的计算发现：从高通量筛选到机器学习

Kulik和他的同事的贡献是对计算化学和机器学习技术在过渡金属配合物的计算发现中的应用的集中概述。从高通量数据的生成，到结构-属性关系的识别，它强调了自动化数据分析所发挥的作用，以及使这一领域的应用特别适合机器学习的具体考虑。

Nandy A, Duan C, Taylor MG, Liu F, Steeves AH, Kulik HJ. Computational Discovery of Transition-metal Complexes: From High-throughput Screening to Machine Learning. Chem Rev. 2021 Aug 25;121(16):9927-10000.

化学化合物空间中的初始机器学习

Huang和von Lilienfeld对机器学习的相关工作进行了全面的历史叙述，旨在以符合量子力学的方式探索化学化合物空间。该综述强调了高效准确的代用模型，在消除最先进的量子力学计算的高计算要求时，所带来的瓶颈的重要性，扩大了这个巨大空间中可以研究的部分。

Huang B, von Lilienfeld OA. Ab Initio Machine Learning in Chemical Compound Space. Chem Rev. 2021 Aug 25;121(16):10001-10036.

势能

四代高维神经网络势能

Behler的综合评论详细介绍了材料的神经网络势能的历史演变，讨论了四代模型，这些模型包含了越来越丰富的物理相互作用类型，适用于具有许多自由度的系统。

Behler J. Four Generations of High-Dimensional Neural Network Potentials. Chem Rev. 2021 Aug 25;121(16):10037-10072.

材料和分子的高斯过程回归

Csányi和他的同事们介绍了高斯过程回归，特别关注高斯近似势的构建--从原子间的能量和力中学习和预测，但也涵盖了该方法的对称性适应性扩展，可用于适应矢量和张量特性。

Deringer VL, Bartók AP, Bernstein N, Wilkins DM, Ceriotti M, Csányi G. Gaussian Process Regression for Materials and Molecules. Chem Rev. 2021 Aug 25;121(16):10073-10141.

机器学习力场

在他们的评论中，Müller和他的同事概述了根据量子化学数据训练的力场的发展和应用，这些力场结合了第一原理计算的准确性和经验力场的效率。他们强调了机器学习力场的普遍性，这些力场不依赖于化学键的事先定义，其准确性只受参考数据的质量和数量的限制。

Unke OT, Chmiela S, Sauceda HE, Gastegger M, Poltavsky I, Schütt KT, Tkatchenko A, Müller KR. Machine Learning Force Fields. Chem Rev. 2021 Aug 25;121(16):10142-10186.

小分子和反应的神经网络势能表面

Manzhos和Carrington概述了通过应用机器学习技术生成小分子和反应势能表面的高度精确近似所取得的进展。他们还讨论了与量子动力学计算的相关性，以及使这些方法有可能用于更大、更复杂分子的最新进展。

Manzhos S, Carrington T Jr. Neural Network Potential Energy Surfaces for Small Molecules and Reactions. Chem Rev. 2021 Aug 25;121(16):10187-10217.

化学反应的机器学习

Meuwly把他的评论集中在与反应过程有关的研究上。他总结了机器学习在该领域应用的悠久历史，其范围从使用贝叶斯推理纳入实验信息，到使用机器学习潜能明确模拟反应性网络。

Meuwly M. Machine Learning for Chemical Reactions. Chem Rev. 2021 Aug 25;121(16):10218-10239.

参考资料

https://pubs./doi/10.1021/acs.chemrev.1c00598