1、简介

  • 主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。

2、简单案例

  • 下图中要存储每个点的话,需要存储它们的x轴和y轴,此时存储的就是一个二维的信息。
  • 观察发现,这些数据点是排列在同一直线上的,那么我们可以重新建立一个新的坐标系,让这些数据点坐落在坐标轴。
  • 如下图所示,所有的数据点都坐落在x轴上,即y=0。那么此时我们就只需要存储x坐标的值就可以了,即存储的是一维的信息。
  • 所以,主成分分析就是寻找坐标系。

3、寻找坐标系

  • 目标:只保留一个轴的时候(二维降到一维),信息保留最多。
  • 怎么样最好:找到数据分布最分散的方向(方差最大),作为主成分(坐标轴)。
3.1、去中心化
  • 把坐标原点放在数据中心
3.2、找坐标系
3.2.1、方差最大化
  • 方差表示随机变量和其数学期望(即均值)之间的偏离程度。方差越大,说明各个数据和数据均值的出入就越大。
  • ,此时,每个数据点在新坐标系上的投影重合就越小,保留的信息就越多。
3.2.2、数据线性变化
  • 拉伸
    • 【注】
    • 此时,所有数据点的x轴坐标都乘以2,即拉伸两倍。
  • 旋转
    • 【注】
    • 此时,所有数据逆时针旋转θ度。
3.2.3、白数据
  • 白数据的协方差是单位矩阵。
  • 我们手上的数据可以由白数据拉伸旋转得到。反之,我们手上的数据也可以通过拉伸旋转得到白数据。
3.2.4、求R
  • 找坐标系最主要的就是找到应该旋转多少度,找到R。
  • 协方差矩阵的特征向量就是R。
3.2.4.1、协方差
  • 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
  • 通俗解释:两个变量在变化过程中是同方向变化,还是反方向变化?同向或反向程度如何?
  • 协方差计算公式:
  • 已知我们已经将数据去中心化,此时,,那么公式可以简化为:
  • 如果是x跟自己的协方差,简化后的公式就是方差,
3.2.4.2、协方差矩阵
  • 协方差矩阵:
  • 当对数据进行拉伸或旋转时,协方差矩阵会随之改变。
  • 协方差矩阵简化:
    • ,即
3.2.4.3、协方差的特征向量
  • 由上述结论,对下列公式进行简化,得到C'(手上数据的协方差矩阵)的特征向量就是R。
  • ,其中L是拉伸倍数的平方,也是特征值。
  • 进一步理解:
    • 特征向量1和特征向量2组成R矩阵,特征值1和特征值2组成L矩阵。
    • ,其中
    • 特征向量v1就是新坐标系x轴的方向,特征向量v2就是新坐标系y轴的方向,如下图。
    • 所以,特征向量就是坐标轴的方向
3.2.4.4、协方差的特征值
  • ,特征值为拉伸倍数的平方。
  • 下图D'为我们手上(去中心化后)的数据,协方差矩阵为C'。
  • 左乘R逆后(将其顺时针旋转回来)得到白数据,协方差矩阵为L。
  • 所以,,即特征值就是坐标轴方向的方差
3.2.4.5、总结
  • 求出去中心化后数据的协方差矩阵,再求出其特征值(拉伸倍数的平方),由公式计算出特征向量,特征向量组成矩阵即为R。

4、总结

5、复杂案例

  • 下图是将三维数据降到二维,找到一个二维平面,让所有数据点落在该平面的方差最大。
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐