通过机器学习算法速查表，快速选择合适的机器学习算法（下）

爱因思念l5j0t8 2017-07-05

展开全文

书接上文，请跳转至公众号，在今日同栏第一篇位置。今日整理

对初学者面对各种机器学习算法问题时选择算法进行讨论。

何时使用特定的算法

更仔细地查看各个算法可以帮助你了解它们提供的内容以及如何使用它们。这些描述提供了更多的细节，并提供了什么时候使用特定算法，与速查表对准。

线性回归和逻辑回归

线性回归是对连续因变量y与一个或多个预测变量X之间的关系进行建模的方法.Y和X之间的关系可以线性建模为。根据训练样本

，可以学习参数向量β。

如果因变量不是连续的而是分类的，则可以使用logit链接函数将线性回归转换为逻辑回归。逻辑回归是一种简单，快速而强大的分类算法。这里我们讨论二进制的情况，其中因变量y只取二进制值（它可以容易地扩展到多类分类问题）。

在逻辑回归中，我们使用不同的假设类来尝试预测给定示例属于“1”类的概率，而不是它属于“-1”类的概率。具体来说，我们将尝试学习以下形式的函数：

和这里

是sigmoid函数。给定训练样例，可以通过使给定数据集β的对数似然度最大化来得知参数向量β。

线性SVM和核SVM

核机制用于将非线性可分离函数映射为更高维度的线性可分离函数。支持向量机（SVM）训练算法找到由超平面的法向量w和偏差b表示的分类器。这个超平面（边界）将不同的类分隔开尽可能大的边距。该问题可以转化为约束优化问题：

支持向量机（SVM）训练算法找到由超平面的法向量w和偏差b表示的分类器。这个超平面（边界）将不同的类分隔开尽可能大的边距。该问题可以转化为约束优化问题：

当类不可线性分离时，可以使用核机制将非线性可分离空间映射到更高维度的线性可分离空间。

当大多数因变量是数字时，逻辑回归和SVM应该是分类的第一个尝试。这些机型易于实现，其参数易调，性能也相当不错。所以这些模式适合初学者。

树和集成树

决策树、随机森林和梯度提升都是基于决策树的算法。决策树有许多变种，但它们都做同样的事情--将特征空间细分为具有相同标签的区域。决策树易于理解和实施。然而，当我们剪枝并深度运行树时往往过度拟合数据。随机森林和梯度提升是使用树算法实现良好准确性以及克服过拟合问题的两种流行方式。

神经网络和深度学习

20世纪80年代中期，由于并行和分布式处理能力，神经网络蓬勃发展。但这一领域的研究受到广泛用于优化神经网络参数的反向传播训练算法的无效性的阻碍。支持向量机（SVM）等简单模型，可以通过解决凸优化问题轻松训练，逐渐取代机器学习中的神经网络。

近年来，新的和改进的训练技术，如非监督的预训练和逐层贪婪训练，导致对神经网络兴趣的兴起。越来越强大的计算能力，如图形处理单元（GPU）和大规模并行处理（MPP），也激发了神经网络的复兴。神经网络复兴的研究引起了成千上万层模型的发明。

换句话说，浅层神经网络已经演变成深度学习神经网络。深层神经网络对于监督学习已经非常成功。当用于语言和图像识别时，深层次的学习表现与甚至比人类更好。适用于非监督的学习任务，如特征提取，深度学习还从原始图像或语音中提取少量人为干预的特征。

神经网络由三部分组成：输入层，隐层和输出层。训练样本定义了输入和输出层。当输出层是分类变量时，神经网络是解决分类问题的一种方式。当输出层是连续变量时，网络可以用来做回归。当输出层与输入层相同时，可以使用网络来提取内在特征。隐藏层的数量定义了模型的复杂性和建模能力。

K-means/ K-modes，GMM（高斯混合模型）聚类

K-means/ K-modes，GMM聚类旨在将n个观察值分为k个集群。 K-means定义硬分配：样本将是且仅与一个集群相关联。然而，GMM为每个样本定义一个软分配。每个样本具有与每个集群相关联的概率。当给定集群k的数量时，两种算法都是简单且足够快的聚类。

DBSCAN

当聚类数k没有给出时，可以通过密度扩散连接样本来使用DBSCAN（基于密度的空间聚类）。

分层聚类

可以使用树结构（树形图）来可视化分层分区。它不需要集群的数量作为输入，并且可以使用不同的K来以不同的粒度级（即，可以细化/粗化的集群）来查看分区。

PCA,SVD和LDA

我们通常不想将大量的特征直接馈送到机器学习算法中，因为一些特征可能是不相关的，或者“固有的”维度可能小于特征的数量。主成分分析（PCA），奇异值分解（SVD）和潜在Dirichlet分配（LDA）均可用于降维。

PCA是一种非监督的聚类方法，将原始数据空间映射到较低维数空间，同时保留尽可能多的信息。 PCA基本上找到一个最保留数据方差的子空间，其中子空间由数据协方差矩阵的主要特征向量定义。

SVD与PCA相关，意思是中心数据矩阵（特征与样本）的SVD提供了定义与PCA相同的子空间的主要左奇异向量。然而，SVD是一种更通用的技术，因为它也可以做PCA可能不做的事情。例如，用户对电影矩阵的SVD能够提取可以在推荐系统中使用的用户资料和电影简介。此外，SVD也被广泛用作自然语言处理（NLP）中称为潜在语义分析的主题建模工具。

NLP中的相关技术是潜在的Dirichlet分配（LDA）。 LDA是概率主题模型，它以与高斯混合模型（GMM）类似的方式将文档分解为主题，将连续数据分解为高斯密度。与GMM不同，LDA模型离散数据，并且限制了主题根据Dirichlet分布先验分布。

结论

这是易于遵循的工作流程。在此得出的当试图解决一个新问题时的结论：

定义问题。你想解决什么问题？
从简单的开始。熟悉数据和基线结果。
然后尝试更复杂的东西。

Dr. Hui Li是SAS数据科学技术的首席科学家。她目前的工作重点是SAS Viya的深度学习，认知计算和SAS推荐系统。她获得杜克大学电气和计算机工程博士学位和硕士学位。在加入SAS之前，她曾在杜克大学任研究科学家，并在Signal Innovation Group，Inc.担任研究工程师。她的研究兴趣包括机器学习，大型异构数据，协同过滤建议，贝叶斯统计建模和增强学习。