人工智能和机器学习的出现,让各大企业瞬间走上捷径,不管是运营效率还是生产利润都得到了显著的提升。但世界上是没有“免费午餐”的,企业面临的问题数组庞大,用于解决这些问题的ML模型种类相当广泛,每一种算法擅长的领域都不同,选择一种合适的算法模型成为企业棘手难题。 10种流行AI算法: 1. 线性回归 2. Logistic回归 3. 线性判别分析 4. 决策树 5. 朴素贝叶斯 6. K-Nearest Neighbors 7. 学习矢量量化 8. 支持向量机 9. Bagging和随机森林 10. 深度神经网络 在详细介绍各大模型之前,我们先了解一下机器学习的基本原理。 机器学习的原理可以简单的理解为学习函数(f),它提供输入值(x)和输出值(y)之间最精确的相关性。Y=F(X) 当我们拥有了一些历史数据X、Y时,便可以套入AI模型,得出这些数据间最佳映射。机器学习不同于数学计算,它的结果不是100%的准确,只是一个最佳数值。但我们训练的F函数可以用于使用新X预测新Y,从而实现预测分析。不同种类的ML模型实现最佳结果的方式都是不一样的,但是基本原理都是一样的。 线性回归 截止今日,线性回归在数学统计中被使用了200多年。算法的要点是找到系数(B)的值, 这些值对训练函数精度的影响很大。 举一个简单的例子:y = B0 + B1 * x,其中B0 + B1就是需求。 通过调整这些系数的权重,数据科学家可以获得不同的训练结果。该算法成功的核心要求是具有清晰的数据(不能有太多的“低值信息”),并除去具有相似值(相关输入值)的输出变量。 线性回归算法一般适用于金融、银行、保险、医疗保健、营销等行业,统计数据进行梯度下降优化。 Logistic回归 Logistic回归是另一种流行的AI算法,能够提供二进制结果。这意味着该模型既可以预测结果,也可以指定y值的两个类别。该函数可以改变算法的权重,但由于使用非线性逻辑函数来转换结果,所以是不同的。此函数可以表示为将真值与虚值分开的S形线。 该函数成功的要求与线性回归相同——去除相同值的输入样本并减少低值数据的数量。Logistic回归是一个比较简单的函数,很好掌握,很适合二进制分类。 线性判别分析(LDA) 线性判别分析(LDA)是逻辑回归模型的一个分支,可以在输出中存在两个以上的类时使用。该模型可以计算数据的统计特性,如每个类别平均值和所有类别的总方差。预测允许计算每个类的值,并确定具有最高值的类。想要得到正确的结果,该模型需要根据高斯贝尔曲线分布数据,事先去除所有的异常值。 决策树 决策树是最古老,最常用,最简单和最有效的ML模型之一。它是一个经典的二叉树,在模型到达结果节点之前,都需要确定是否进行拆分。 该模型易于学习,不需要数据规范化,可以帮助解决多种类型的问题。 朴素贝叶斯(NBM) 朴素贝叶斯算法是一个简单但非常强大的模型,用于解决各种复杂问题。它可以计算出两种类型的概率: 1. 每个类出现的概率 2. 给定一个独立类的条件概率,给出一个额外的x修饰符。 这种模型会假设所有输入数据彼此无关,因此也被称为“幼稚模型”。虽然这些在现实生活中无法实现,但这种简单的算法可以应用于多种标准化数据流,高精度地预测结果。 K-Nearest Neighbors(KNN) K-Nearest Neighbors同样也是一个非常简单且强大的ML模型,使用整个训练数据集作为表示字段。通过检查具有相似值的K数据节点的整个数据集并使用欧几里德数来计算结果值的预测,以确定结果值。 这样的数据集需要大量的计算资源来存储和处理数据,但当存在多个属性且必须不断地策划时会遭受精度损失。但是它工作速度极快,能够非常准确且高效的在大型数据集中查找所需值。 学习矢量量化(LVQ) KNN唯一的缺点是需要存储和更新大型数据集。学习矢量量化(LVQ)是KNN模型的进化版,它是使用码本矢量来定义训练数据集并编码所需结果的神经网络。因此,这些向量最初是随机的,在学习的过程中可以调整它们的值来最大化预测精度。 因此,找到具有最相似值的向量可以预测结果值的最高准确度。 支持向量机(SVM) 支持向量机是数据科学家讨论最广泛的算法之一,因为它为数据分类提供了非常强大的功能。所谓的超平面是用不同的值分隔数据输入节点的线,当同一类的所有数据实例都在超平面的同一侧,即支持向量;当数据点在其类平面之外,即不支持向量。 好的超平面具有最大正向量且能够分离大多数数据节点。它是一个非常强大的分类机器,可以应用于各种数据规范化问题。 Bagging和随机森林 随机决策森林由决策树组成,其中多个数据样本由决策树处理,将结果聚合(如收集袋中的许多样本)在一起来找到更准确的输出值。 不是找到一条最佳路线,而是定义了多条次优路线,从而使整体结果更加精确。如果决策树能够解决您的需求,那么随机森林可以作为一种优化方式,使结果更加完善。 深度神经网络(DNN) 深度神经网络是使用最广泛的AI和ML算法之一,其工作原理是模仿人脑思考方式,使软件的语音识别速度更快,识别准确率更高。它擅长改善深基于学习的文本和语音应用程序,机器感知深层神经网络和OCR等。 总结 AI模型和ML模型种类繁多,有的适合数据分类,有的适合数据规划。没有一款模型能够适合所有的问题,因此选择一种合适的AI模型至关重要。 那么如何判断哪个模式更匹配您的需求呢?以下是一些帮助判断的要点: 1. 您需要处理的3V大数据(输入的数量,种类和速度) 2. 您可以使用的计算资源数量 3. 您处理数据的时间限制 4. 数据处理的目标 综上所述,如果一个模型可以提供94%的预测精度,另一个模型可以提供86%的预测精度,但是高精度模型的处理时间是低精度模型处理时间的两倍,那么就需要您基于上述条件去做选择。 但是,目前还存在一个比较大的问题是很多企业普遍缺乏设计、实施数据分析以及机器解决方案所需的专业知识。这就是为什么有那么多的企业都去选择专门的托管服务提供商。 |
|