应用数学新时代的曙光——北京大数据研究院院长鄂维南院士

源源不断 2021-07-02

展开全文

本文转载整理自公众号计算数学信息共享平台。本文归纳总结自北京大数据研究院院长鄂维南院士的文章 The Dawning of a New Era in Applied Mathematics，文章来自

https://www./journals/notices/202104/202104FullIssue.pdf，点击文末左下角阅读原文/Read More 阅读原文。

传统应用数学的发展和挑战

自牛顿时代以来，诞生了两种科学研究的范式：开普勒范式和牛顿范式。前者基于数据分析，经典的例子是行星运动的开普勒定律（了解更多：从开普勒三大定律到大数据分析）。随着统计方法和机器学习的蓬勃发展，数据驱动的方法尽管可以有效地通过数据发现事实，但是不能很好地帮助人们找到事实背后的原因。牛顿范式基于第一性原理，⽬的是发现世界运⾏的基本原理，因而对第一性原理的追求推动着物理学的发展，这些原理主要由数学中的偏微分方程来描述。然而，这些数学模型有时会非常复杂，比如量子力学中的多体问题。在面对有限的计算能力时，人们不得不放弃优雅的理论而诉诸于特殊的近似以得到问题的解。

应用数学的发展也沿袭了类似的模式，研究基于第一性原理建立的偏微分方程及其数值算法已经成为应用数学的核心主题。流体力学的发展是一个非常成功的例子，被称作“定理证明家”的柯朗学派在这一问题上更看重数值和定理，他们认为，只要方程的含义和数值方法是可靠的，人们便可以在计算中得到许多信息，进而在物理上获得一些进展。多年以来，柯朗学派在对流体力学、固体力学等领域的研究中都收获了巨大的成功，事实上计算流体力学已经成为了流体力学的主流。但现如今，留给人们的更多是挑战而非机遇。在前辈已经建立的偏微分方程和流体力学基本框架下，人们要么解决例如湍流这类遗留的难题，要么开辟新的研究领域，这都是十分困难的。而且，尽管在流体力学之后，柯朗学派的想法也被应用于材料科学、化学、生物学、地球科学和金融学等领域，但是效果远远不及我们在流体力学中看到的那样突出，它带来的变化只是有限的改进而非变革式的影响。

Johannes Kepler 1571-1630 （数据科学人工智能）

从根本来说，这种现状最主要的困难是⾼维度问题，我们一直在被维度灾难所困扰。之所以出现这些困难，其核心在于人们处理多元函数的能力有局限性，而这正是机器学习的强项。尽管人们在很久之前就已经建立了神经网络模型，而它在近似多元函数方面的巨大潜能直到最近才被大家认可。将机器学习与之结合，它们在很短的时间内就已经出色地解决了一些长期存在的问题，相信在不久的将来，我们还会收获更多。这说明，机器学习与应用数学的结合将会对两个领域都带来根本性的变革。接下来，我们通过几个例子来阐明这一变化将对科学计算、建模、机器学习和纯数学领域带来哪些影响。

机器学习登上舞台

机器学习在科学计算中的一个成功应用是处理基于神经网络的高维控制问题。Bellman方程的维度与控制问题状态空间的维度是一样的，即若要控制一个PDE，那么Bellman方程是无穷维的。如果用神经网络来表示策略函数，我们可以发现随机控制和深度学习的诸多相似。利用基于深度学习的算法，我们能处理几百个甚至更高维度的随机控制问题。这种方法也可用于求解确定性控制问题和非线性抛物型偏微分方程。

人们习惯对物理问题使用第一性原理建模，因为这样的模型很可靠。然而，这样的模型在实际计算中可能会非常困难（比如薛定谔方程），而简化模型对某些方程很难实现（比如湍流模型）。机器学习或许可以从以下三方面提供一个基于物理的建模：

将多尺度建模变为现实
利用数据直接构建模型
将物理模型、观测和数据同化结合

针对机器学习构建的模型，我们讨论两个问题：

第一，机器学习被称为黑箱，如何看待它的可解释性？可解释是相对的。我们知道气体动力学中的欧拉方程表示守恒性，但状态方程是否可解释是不重要的，实际上它可能是来自对实验数据的样条插值，我们并不关心样条函数的系数是否可解释。基于机器学习的模型是类似的，一些基本问题，比如守恒律，应该是可解释性的，但函数的具体形式，不必非要可解释。

第二，该模型是否可靠？以下两点非常重要。第一，模型需满足物理学的要求，比如对称性和守恒性。第二，用于建模的数据要够广，能覆盖到所有实际情况。

上述这些想法已成功应用到许多问题了，比如分子动力学，稀薄气体动力学等。与高性能计算结合，人们已能模拟数亿个原子的系统，在计算规模上提升了五个数量级。

机器学习是一个黑箱吗？（搜狗图片）

机器学习和应用数学的结合能给机器学习领域带来新视角。这里我们讨论以下两个方面的内容：

传统机器学习的观测数据是提前生成的。但在解决计算科学领域的实际问题时，训练集通常是在机器学习的过程中生成（类似sequential multiscale modeling 和 concurrent multiscale modeling 的区别）。这被称为concurrent 机器学习。如何生成一个最小却有代表性的数据集是concurrent 机器学习的关键问题。
虽然机器学习有许多优势，但它在某种程度上很脆弱——它对超参数和训练算法太敏感了。对经验丰富的人来说，调参依然是一个艺术。这是因为在构建模型和算法之前，我们并没有仔细地考虑问题的表述，这就好像在还没有构建PDE模型时就去对物理过程建模。柯朗学派的经验告诉我们，在考虑PDE模型前要确认PDE的适定性。那么问题是，如何判断机器学习模型的适定性呢？如果我们有一个好的连续模型，再离散化，得到离散模型和算法，这样的模型将会稳定多了。[1]已经做了一些尝试，某些简单的连续模型和离散方式能导出神经网络模型。这件事鼓励我们走出机器学习的领域，寻求第一性原理的帮助。类似的想法在降噪上也有应用。降噪的常用方式是使用合适的滤波。另一种方式是写出降噪的数学模型，一个连续变分问题，接着离散，用优化算法求解，比如著名的Mumford-Shah和Rudin-Osher-Fatemi模型。它将降噪问题变成了PDE问题，在数学上是良定义的。

另外，机器学习提出了许多新的高维逼近论分析问题。这类问题的研究会形成一个新的数学分支：高维分析。其中一个重要问题是，如何选取对象（函数、概率分布、动态系统等）的复杂度特征。抽象说来，复杂度是该对象被基本元素逼近的困难程度。经典理论将函数的光滑性作为复杂度的衡量指标，由此引申出C^k空间，Sobolev空间等。用基本元素（比如分片多项式）来逼近函数时，光滑性决定了逼近速率。但这样定义的复杂度会有维度灾难。所以在高维空间，由光滑性决定的复杂度或许不再是合适的方式，取而代之的是一个函数能否高效地被某种神经网络逼近，由此引申出再生核Hilbert空间（RKHS），Barron空间等。

Isaac Newton 1643-1727（数据科学人工智能）

应用数学基本构成及其未来

应用数学能像基础数学（代数，几何，分析，拓扑）一样，形成由几个基本的方向组成的一门系统的学科吗？目前来看时机尚不成熟。但随着机器学习进入应用数学的研究领域，应用数学的几大主要构成部分愈发清晰，这意味着应用数学终将成为一门成熟的学科。这里我们不妨对应用数学的主要方向假想一下：例如：基于第一性原理的模型，学习，算法。

基于第一性原理的模型：这里的模型包含物理模型本身以及研究该模型的分析工具。前者关于物理（基本的物理学定律和物理学原则），后者关于数学（变分原理等）。基于第一性原理将物理问题数学化便是变分问题或者微分方程，接着是运用分析工具来研究这些问题。
数据驱动方法（学习）：最重要的是机器学习和统计方法。
算法：用于第一性原理建模和数据驱动方法的算法，比如优化算法。

相比于基础数学教育，应用数学教程系统性不足，往往流于片面，教学只是具体问题（方程）求解的方法和技巧，缺乏大局观。弄清楚了应用数学的基本结构，我们就可以设计出系统的完整的教学规划。

模型，学习相关的物理知识和数学工具（ODE，PDE，变分，随机分析）；
学习，相当于数据分析，包括机器学习，数据处理，统计分析等；
算法，连续问题的算法（分析）和离散问题的算法（离散数学）。

Von Neumann 1903-1957（搜狗百科）

应用数学将成为交叉学科研究的基石，应用数学教育将为学生提供系统性的学术训练，使交叉学科的研究体系化。在科学发展的历史长河中，牛顿时期确立了数学是描述科学的语言；Von Neumann 时期提出数值算法是连接数学与科学的桥梁；如今，第三个变革时期即将来临，应用数学的主要组成准备就绪，为交叉学科的科学研究和技术革新保驾护航。这真是一个激动人心的时刻。让我们一起为将设想变为现实而努力奋斗！

注：封面图片引用自数据科学人工智能公众号

[1] Weinan E, Chao Ma, and Lei Wu, Machine learning from a continuous viewpoint, I, Sci. China Math. 63 (2020), no. 11, 2233–2266, DOI 10.1007/s11425-020-1773-8. MR4170870