有一天，科研也将被自动化？

云天一鹤757 2017-05-03

展开全文

从某种角度讲，科学正面临着一场数据的危机。去年，仅在生物医学领域就有超过120万篇论文被发表，使经过同行评议的生物医学论文总数达到了2600万篇。然而我们要知道，一名学者平均每年只能阅读250篇论文。与此同时，学术论文的质量有时也难以保证。有统计显示，相当一部分生物医学论文所涉及的研究无法被重复，其中不免有滥竽充数者。当然，这并不是某一个学科面临的问题。

人类的思维和精力是有限的，愈渐庞大的文献数量和参差不齐的质量想必成为了科研人员的挑战。研究者只能从共有知识越来越小的比例中获得启发，推理假设；同时却要提出越来越多的问题，有些是错误的，有些则早已有了答案。

我们的创新能力似乎也越来越依赖于先前经验的随机性，特别是生活中那些能够让个体研究人员注意到而被其他人所忽略问题的事情。尽管运气一直是科学发现的一个因素，但目前来看，它所扮演的角色有点太过重要了。

对此问题，有人提出了可能的解决策略：在科研过程中，把机器和人工智能整合进去。相比人类，机器有着更强大的存储能力和计算能力。科研过程的自动化能够提高新发现的速率，这可能将引起另一场科学革命。而这一切的关键在于那个重要的问题：科学发现真的可以自动化吗？

答案或许早已存在。17世纪英国哲学家弗兰西斯·培根 (Francis Bacon) 的作品也许可以为我们带来启迪。他也正是现代科学的重要先驱。

Francis Bacon （1561-1626）

培根归纳法

关于科学方法的可重复问题，最早要追溯到千年之前的穆斯林思想家伊本·海赛姆 (Ibn al-Haytham)。他既强调经验，又注重实验。不过，直到培根，科学方法才正式得到梳理，并形成为一门学科。在作品《新工具(Novum Organum)》中，培根提出了一种科学发现的模型，即培根归纳法 (Baconian method)。他反对科学综合体的三段论逻辑，认为那是无法信赖的。相反，在他提出的方法中，对于特定现象的观察，需要用归纳法逻辑进行系统的收集、列表并加以客观分析，从而产生概括性的理念。他认为，真相只有在思想不受那些残缺或虚假信条的束缚时，才能得以揭示。

培根归纳法试图在观察和概念化过程中通过描述科学综合体的步骤并对每一步分别优化，从而去除逻辑偏见。培根的远景在于让观察者群体能够收集关于自然的海量信息，并以列表形式记入中央存储，以供归纳分析。在《新工具》中，他写道：“经验主义者就好比蚂蚁，他们积累并使用。理性主义者则如蜘蛛那般自己结网。最好的方法就是蜜蜂那样，处于中间某处，获取现存材料，加以使用。”

当然，培根归纳法在今天已很少被使用。它太过耗时费力，成本又高；其技术应用也不够明确。然而在当时，一种科学方法的形式化标志着革命性的进步。在那之前，科学是形而上学的，只能是少数博学者的玩物，他们多出身贵族。通过反对古希腊人的权威，刻画科学发现的步骤，培根创造了能够使任何人都成为一名科学家的蓝图，无论背景出身。

培根的洞见揭示了一个隐藏着的重要事实：科学发现过程从根本上说是演算式的。它是通过有限步骤的重复，直到一个有意义的结果被发现的过程。培根明确地使用了“机器”这个词来描述他的想法。他的科学算法包括三个基本组成：首先，观察得到的信息需要被收集并整合进总体知识的数据库；第二，新的观察用来产生新的假设和猜想；第三，假设需要用仔细设计的实验加以测试。

如果科学真的是算法式的，那么它一定有被自动化的潜力。这种未来主义的幻梦已经令信息和计算机学者困惑了几十年，很大程度是因为，科学发现的三大主要步骤覆盖了不同的层面。观察是感知性的；假设的产生是思想性的；实验则是机械性的。科学过程的自动化将需要机器把这三者进行有效的整合，并保证彼此之间具备流畅的衔接。显然，还没有人知道该如何实现这种构想。

自动化的现状与未来

如今，人类在实验层面已经取得了长足的进展。比如，制药行业就广泛采用自动化且高吞吐量的平台进行药物设计。有些企业甚至在打造更进一步的自动化系统，几乎能够完成生物医学家的各项人工任务。研究人员们能够在线提交他们的实验，这将被转化为代码，并输入到机器人平台，从而进行一系列的生物学试验。这些解决方案对于那些需要大量密集实验的学科很有帮助，比如分子生物学和化学工程。此外，类似的方法能够被应用到其他数据密集型领域，甚至扩展到理论学科上。

相比之下，提出假设的自动化水平就没有那么发达了。不过，唐·斯旺森 (Don Swanson) 在1980年代的工作使其迈出了重要一步。他展示了科学文献中不相关想法之间隐藏关联的存在。通过一个简单的推理逻辑框架，他能够把不同领域中没有引用重叠的论文联系起来。凭借此法，我们可以在食用鱼油和雷诺综合症之间提出新颖的假设，而无需进行任何实验或身为某一领域的专家。更多新近的方法，比如芝加哥大学Andrey Rzhetsky教授和东北大学Albert-László Barabási教授所提出的内容，则依赖于数学模型和图形理论。他们合并了庞大的数据集，知识在这里被视为一种网络，其中的节点代表概念，而关联则表示概念之间的关系。新型的假设将以节点间未曾发现的关联为形式来展现。

最具挑战的自动化步骤想必是如何在大尺度上，收集可靠的科学观测结果。目前尚没有哪个数据库能够在观测水平上囊括人类的科学知识。自然语言处理已经发展到能够自动提取出关系，甚至从科学论文中提取内容。但是，主要的学术出版商目前严格限制此类文本挖掘。更重要的是，论文的文字内容可能带有学者自身释义的偏见或误解，同时包含复杂的综合性概念，以及难以提取和量化的方法。

尽管如此，计算和网络数据库的最新进展已经使培根归纳法首次变得切实可行。甚至可以说，在科学发现发展到自动化之前，当纯粹的还原论接近其有用性的边缘时，培根的方法是颇有价值的。

在大数据时代，人类的大脑可能难以有效构建高度复杂的自然现象。而现代的培根法能够通过数据挖掘整合还原论者的想法，同时通过归纳法的计算模型对信息进行分析，将我们所理解的自然世界进行转换。这将能帮我们带来新的且很可能真实的假设和猜想，使我们得以测试这些假设，填补知识的空白。而这也同样提醒着人们科学的真谛：寻找真理，反对专制，崇尚自由。

参考原文

https://www./science/archive/2017/04/can-scientific-discovery-be-automated/524136/