人工智能学习路线？

快读书馆 2017-12-04

展开全文

谢邀！

能在大二这个年纪提出这样的问题真让我们这些80后汗颜，我们大二的时智能手机还没有开始普及，而现在人工智能已经开始逐步进入生活的各个领域。2017年可以说是人工智能的发展迎来了一个拐点，国家层面确定人工智能的发展战略及方向。未来两年，人工智能应用层面将出现爆发式增长，进而出现大量的AI应用人才缺口，所以现在对于一个大二学生来讲，还能有什么比这更幸运？

学习人工智能，我建议参考一下步骤循序渐进：

学习并掌握好数学知识

高等数学是学习人工智能的基础，一起理工科都需要这个打底，数据挖掘、人工智能、模式识别此类跟数据打交道的又尤其需要多元微积分运算基础。线性代数很重要，现行模型是你最先考虑的模型，未来很可能还要处理多维数据，需要用线性代数来简洁清晰的描述问题，为分析求解奠定基础。

概率论、数理统计、随机过程更是少不了，涉及数据的问题，不确定性几乎是不可避免的，引入随机变量顺理成章，相关理论、方法、模型非常丰富。

再就是优化理论与算法，除非你的问题是像二元一次方程求根那样有现成的公式，否则你将不得不面对各种看起来无解但是要解的问题，优化将是你的GPS为你指路。

有了以上基础就可以开始机器学习的理论和算法了，以后再具体针对某一个应用补充相关的知识与理论，比如数值计算、图论、拓扑等。

学习机器学习的理论和算法

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。

回归算法：常见的回归算法包括：最小二乘法（Ordinary Least Square），逻辑回归（Logistic Regression），逐步式回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression Splines）以及本地散点平滑估计（Locally Estimated Scatterplot Smoothing）

基于实例的算法：常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化（Learning Vector Quantization， LVQ），以及自组织映射算法（Self-Organizing Map ， SOM）

正则化方法：正则化方法是其他算法（通常是回归算法）的延伸，根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及弹性网络（Elastic Net）。

决策树学习：决策树算法根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。常见的算法包括：分类及回归树（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林（Random Forest），多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine， GBM）

贝叶斯算法：贝叶斯方法算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见算法包括：朴素贝叶斯算法，平均单依赖估计（Averaged One-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）。

基于核的算法：最著名的莫过于支持向量机（SVM）了。基于核的算法把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易的解决。常见的基于核的算法包括：支持向量机（Support Vector Machine， SVM），径向基函数（Radial Basis Function ，RBF)，以及线性判别分析（Linear Discriminate Analysis ，LDA)等。

聚类算法：聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。

关联规则学习：关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见算法包括 Apriori算法和Eclat算法等。

人工神经网络：人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法。（其中深度学习就是其中的一类算法，我们会单独讨论），重要的人工神经网络算法包括：感知器神经网络（Perceptron Neural Network）, 反向传递（Back Propagation）， Hopfield网络，自组织映射（Self-Organizing Map, SOM）。学习矢量量化（Learning Vector Quantization， LVQ）

深度学习：深度学习算法是对人工神经网络的发展。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括：受限波尔兹曼机（Restricted Boltzmann Machine， RBN）， Deep Belief Networks（DBN），卷积网络（Convolutional Network）, 堆栈式自动编码器（Stacked Auto-encoders）。

降低维度算法：降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括：主成份分析（Principle Component Analysis， PCA），偏最小二乘回归（Partial Least Square Regression，PLS）， Sammon映射，多维尺度（Multi-Dimensional Scaling, MDS）, 投影追踪（Projection Pursuit）等。

集成算法：集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的算法包括：Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆叠泛化（Stacked Generalization， Blending），梯度推进机（Gradient Boosting Machine, GBM），随机森林（Random Forest）。