让调参全部自动化自动机器学习，神经网络自主编程

田杰4 2017-07-09

展开全文

新智元推荐

在过去几年,自动机器学习(AutoML)成了一个研究的热点。在继续接下来的话题之前,我们先简单介绍什么是 AutoML,它为什么重要。然后,我们将介绍一个训练神经网络自动编程的项目,附上代码,你可以自己练习。

看着神经网络自己编程是件很令人兴奋的事情,我们强烈推荐你自己动手实践。

首先,什么是自动机器学习(AutoML)?

AutoML 不是自动数据科学(automated data science)。当然,两者有所重叠,但机器学习只是数据科学中众多工具的一种,而且机器学习用在预测很好,但描述性分析等任务里根本不会用到机器学习。

不过,就算是预测任务,数据科学涵盖的也不仅仅是实际的预测模型。数据科学家 Sandro Saitta 在讨论 AutoML 与自动数据科学间的潜在混淆时曾经说过:

误解来自于整个数据科学过程(参见例如CRISP-DM)与数据准备(特征提取等)和建模(算法选择、超参数调整等)的子任务之间的混淆。……

在阅读有关自动数据科学和数据科学竞赛的工具的消息时,没有行业经验的人可能会感到困惑,认为数据科学只是建模,并可以完全自动化。

他是对的,这不仅仅是一个语义问题。此外,数据科学家和自动机器学习支持者 Randy Olson 指出,有效的机器学习设计需要我们:

总是调整模型的超参数

总是尝试许多不同的模型

始终为数据探索大量的特征表征

综上,我们可以认为 AutoML 是算法选择、超参数调优、迭代建模和模型评估的任务。当然,这个定义并不完全精准,但让我们先从这里开始。

为什么要做 AutoML?

AI 研究员和斯坦福大学博士生 S.Zayd Enam 在一篇名为《为什么机器学习'难'》的博客中写道(加粗强调部分是原文就有的):

机器学习仍然是一个相对'困难'的问题。毫无疑问,通过研究推进机器学习算法的科学是困难的。它需要创造力、实验和韧性。实现现有的算法和模型去适应新的应用程序时,机器学习仍然是一个难题。

注意,虽然 Enam 主要指的机器学习研究,但他也讲到现有算法在用例中的实现(见加粗部分)。

接下来,Enam 继续阐述了机器学习的难点,着重于算法的本质(强调也是原文就有的):

困难的一个方面涉及要靠直觉去想用什么工具解决问题。这需要知道可用的算法和模型以及每个算法和模型的利弊和约束。……

困难在于机器学习在根本上是很难调试的问题。机器学习需要调试的话有两种情况:1)算法不起作用,或2)算法运行不够好……很少有算法一次就行,因此最终大部分时间都用于构建算法。

然后,Enam 从算法研究的角度阐述了这个问题。如果一个算法不起作用,或者做得不够好,而且选择和优化的过程是迭代的,这就给自动化提供了机会,从而有了自动机器学习上场的余地。

我在之前的一篇文章里曾经写过,AutoML 的本质是:

正如 Sebastian Raschka 所描述的那样,计算机编程是关于自动化的,而机器学习是'将自动化自动化',然后自动机器学习是'自动化自动化自动化'。

编程通过管理重复的任务来减轻我们的劳动;机器学习让计算机学习如何最好地执行这些重复的任务;而自动机器学习让计算机学习如何优化学习如何执行这些任务的结果。

以前我们需要花大力气调整参数和超参数,而自动机器学习系统可以通过多种不同的方法,学习如何以最佳的方式来调整这些结果。

AutoML 源自于这个想法:如果必须建立大量机器学习模型,使用各种算法和多个不同的超参数配置,那么这种模型构建的过程,还有比较模型的性能和精度都能自动化。

简单吧?

实践:训练一个能自动编程的神经网络

要求

Tensorflow + 基本的深度学习技巧

项目的 Github 库:https://github.com/thibo73800/deep_generation/tree/master/c_code

下文将快速回顾循环神经网络( RNN)相关要点,虽然不会把项目操作从头到尾过一遍,但会着重记述核心要点。花时间把每块代码都跑一边,能让你更好地理解整个逻辑。动手很关键。

好,我们这就开始吧!

数据集

做任何监督学习都需要一个训练数据集,我们这个网络也一样。项目的代码全部基于 C 语言(用太简单的语言就没意思了)。因此,我们的训练数据集将是 Github Linux 库里的 C 语言脚本。我已经预先提取了相关的.c代码。

第一个问题:

神经网络只处理数字,其他信息都不知道。因此,数据集中的每个字符都需要表示成以下形式:

由上图可见,字符 '=' 被分配给了数字 7。稍后我们会用热编码表示每个数字,这样能在反向传播的过程中更好地收敛。

这里需要记住 3 个重要的变量:vocab_to_int、int_to_vocab和encoded。前两个让我们能够在字符和数字间自由转换,最后一个则是所有数据集的 encoder 格式。

第一个批次

先来生成一个简单的批次,含有两个序列,每个序列由 10 个数字组成。这个批次也将作为下面文章的样本。

这个批次看起来是这样的。也可以显示成:

好,现在我们有了需要处理的第一批值。我们的神经网络需要做的事情是,在知道已经输入的 n 个字符(而不是仅仅前一个字符)后,能够预测接下来要输入的字符是什么。比方说,如果我告诉网络,最后一个输入的字符是'e',那么进化的可能有很多种。但是,如果我说最后的输入是'w''h''i''l'和'e',那么接下来要输入的字符是'('就显而易见了。

因此,我们的神经网络必须要能考虑到字符类型的时空特征。

而为了实现这一点,我们需要用到一个循环神经网络。

循环神经网络