【原】主成分分析(PCA)原理解读

微生信生物 2021-01-16

展开全文

我们做16s数据分析，基础就是排序的聚类，实战当然使我们的目的，但是如果我们连基本的概念，比如特征值，特征向量，标尺，关联测度，再基础的比如多元多重回归，方差，距离都不太清楚的话，分析起来就像是无源之水，做一个表面功夫罢了，真正在以后的数据挖掘中依靠这样的基础会崩溃的。所以我专门抽出一段时间，将我们扩增子使用到的多元统计方法原理，尽可能使用最通俗的语言表达出来，大家心里都有个数（高手绕道了）

PCA分析原理很多人都讲过了，主要是从两个层面来讲，一个就是几何层面，一个是矩阵代数层面，这里我将两个层面结合对应做一个简单描述：

写在前面：

大部分多元统计方法咱们经常使用聚类和排序，一般都采取关联测度的形式，因此关联测度是基础，下次我将重点写一下关联测度的问题。

首先PCA分析关注的变量一般都在两个以上，每个变量看做一个维度，那么多少个变量，就等于你的样品点存在于多少个维度的坐标系中，自然它的坐标需要由代表这么多个维度的数字表示，这是PCA分析的几何基础；

接下来我们开始变换，坐标轴平移到样品点中心，对应的运算就是中心化（平移&尺度化）：center=T；我们发现自己变量的量纲不一样（单位不统一），所以我们将所有坐标轴合理缩放，对应的运算就是标准化：scale=T（除以均方根）；这样多维空间的样品点就被我们整理好了

我们知道排序的目的就是将多维空间的样品点尽可能排列在可视化的低维空间，也就是让前两个或者三个排序轴尽可能包含样品大部分的方差，在我们完成了基本的坐标构建和转化后，下面开始以多维坐标系一条过原点的直线进行任意旋转，直到一个方向，样品点最为离散，这样我们就确定了第一个排序轴；接下来我们将再次利用一条过原点且垂直于第一条直线的直线任意旋转（该直线始终垂直于第一条直线），直到找到样品点最为离散的第二个方向，也就是第二个排序轴；第三条，第四条、、、、都是如此，这个过程对应的运算就是计算前一步标准化和中心化后的样本矩阵的协方差矩阵，然后根据协方差矩阵计算特征向量和特征根：对应关系就是第一条直线旋转路径记录在最大特征值对应的特征向量里，此时的最大特征值对应的是此时这条直线可以解释的样品最大离散度（方差），第二条直线旋转路径记录在第二大特征值对应的特征向量里，此时的第二大特征值对应此时第二条直线可以解释的第二大样品离散度；、、、、一次类推，知道全部直线对应全部特征值和特征向量。

所以我们就明白了，特征值代表的就是样品的方差，一般我们看到的PCA第一轴得分，第二轴得分自然就是每条排序轴对应的特征值占总特征值的百分数

在新的多维坐标系下的样品点我们就构造好了，我们不可能全部表示出来，此时，通过展示前面两个轴的坐标，一般可以代表大部分样品间方差，那么这个坐标如何计算呢？

我们知道前面前两轴对应的就是最大的两个特征根对应的特征向量，此时我们将前两轴对应的特征向量和经过中心化和标准化后的样本矩阵求积即可得到对应的前两轴坐标点；

那么我们样品点得到了，想要知道解释变量对响应变量的影响程度，这个影响程度也就是我们坐标旋转路径，换句话说就是特征向量，展示两个排序轴，我们就相应的选择两个特征向量组成特征向量矩阵，这就是我们经常听到的荷载矩阵了；最后我们将样品点和变量绘制在一张图中即可；

到这里就有问题了，没有一个好的办法使解释变量数据和响应变量矩阵很好的一起展示，因此出现了标尺1和标尺2；

标尺（Scaling），指的是排序结果投影到排序空间的可视化方式。简单来讲标尺1关注的是对象（样品）之间的关系，当然样品之间的距离也近似于多维空间的欧氏距离，但是变量的箭头线之间的夹角不代表任何意义；标尺2关注的是变量之间的关系，自然样品点的距离不再近似于多维空间的欧氏距离，但是变量的箭头线之间的夹角代表两变量之间的相关关系；其实这样比我们看相关关系矩阵图变量间的关系会更加清晰一些，之后我们再说图形解读的时候在详细讲；

原理我用通俗的语言描述了一遍，标尺也做了简单的介绍，下面我们再来实战做几张主成分分析图片，来感受一下这些条条框框。