# 主成分析

# 一,背景

在现在很多的领域的研究和应用中,往往需要对反映事物的多个变量进行大量的观测,收集较多的数据来进行分析。多变量大样本会对研究和应用提供了丰富的信息,一定程度上增加了数据采集工作量,许多变量可能存在相关性,从而增加了问题分析的复杂性。
需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原来指标包含信息的损失,以到达对收集数据进行全面分析的目的。由于各个变量之间存在相关关系,因此可能用比较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。

# 二,问题描述

比方说某些学生的各个成绩统计:
成绩
首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。那么一眼就能看出来,数学、物理、化学这三门课的成绩构成了这组数据的主成分(很显然,数学作为第一主成分,因为数学成绩拉的最开)。为什么一眼能看出来?因为坐标轴选对了!下面再看一组学生的数学、物理、化学、语文、历史、英语成绩统计,见表 2,还能不能一眼看出来:
数学成绩
我们似乎无法直接看出这组数据的主成分,因为在坐标系下这组数据分布的很散乱。

# 三,数据降维

为了说明什么是数据的主成分,先从数据降维开始。降维其实就是把高维空间内的一系列点观察其是否有相关性,然后通过数据中心化(平移)和旋转的方式进行降维。一般来说 n 维空间的 n 个点一定能在 n-1 维子空间中分析。
上面所讲述的,认为在数据降维没有丢掉任何东西,因为这些数据在平面的第三个维度分量都为 0。现在假设这些数据在 z 轴有一些很小的抖动,那么我们仍然用上述的二维表示这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,
PCA 的思想就是将 n 维特征映射到 k 维上,这 k 维是全新的正交特征。这 k 维特征称为主成分,是重新构造出来的 k 维特征,而不是简单地从 n 维特征中去除其余 n-k 维特征。

# PCA 实例

![[Pasted image 20231210204106.png]]
   行代表了样例,列代表特征,这里有 10 个样例,每个样例两个特征。可以这样认为,有 10 篇文档,x 是 10 篇文档中 “learn” 出现的 TF-IDF,y 是 10 篇文档中 “study” 出现的 TF-IDF。
  第一步,分别求 x 和 y 的平均值,然后对于所有的样例,都减去对应的均值。这里 x 的均值是 1.81,y 的均值是 1.91,那么一个样例减去均值后即为(0.69,0.49),得到
  ![[Pasted image 20231210204123.png]]
       第二步,求特征协方差矩阵,如果数据是 3 维,那么协方差矩阵是
       ![[Pasted image 20231210204132.png]]
   这里只有 x 和 y,求解得
   对角线上分别是 x 和 y 的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于 0 表示 x 和 y 若一个增,另一个也增;小于 0 表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的两个变量所采用的量纲发生变化,它们的协方差也会产生树枝上的变化。
第三步,求协方差的特征值和特征向量,得到
![[Pasted image 20231210204204.png]]
上面是两个特征值,下面是对应的特征向量,特征值 0.0490833989 对应特征向量为,这里的特征向量都归一化为单位向量。
第四步,将特征值按照从大到小的顺序排序,选择其中最大的 k 个,然后将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵。
这里特征值只有两个,我们选择其中最大的那个,这里是 1.28402771,对应的特征向量是 (-0.677873399, -0.735178656) T。
第五步,将样本点投影到选取的特征向量上。假设样例数为 m,特征数为 n,减去均值后的样本矩阵为 DataAdjust (mn),协方差矩阵是 nn,选取的 k 个特征向量组成的矩阵为 EigenVectors (n*k)。那么投影后的数据 FinalData 为

FinalData(101) = DataAdjust(102 矩阵) x 特征向量 (-0.677873399, -0.735178656) T
![[Pasted image 20231210204237.png]]
这样,就将原始样例的 n 维特征变成了 k 维,这 k 维就是原始特征在 k 维上的投影。
上面的数据可以认为是 learn 和 study 特征融合为一个新的特征叫做 LS 特征,该特征基本上代表了这两个特征。上述过程如下图 2 描述

总结一下就是求协方差矩阵,矩阵中方差大的(即那个向量方向上分散大的)可以认为是主要的特征,那么我们可以将数据投影到这个向量上。