PCA原理及应用,很详细

ID：47943351

大小：160.13 KB

页数：6页

时间：2019-11-09

资源描述：

《PCA原理及应用,很详细》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、PCA原理与应用PCA是Principalcomponentanalysis的缩写，中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术，最重要的应用是对原有数据进行简化。正如它的名字：主元分析，这种方法可以有效的找出数据中最“主要”的元素和结构，去除噪音和冗余，将原有的复杂数据降维，揭示隐藏在复杂数据背后的简单结构。它的优点是简单，而且无参数限制，可以方便的应用与各个场合。因此应用极其广泛，从神经科学到计算机图形学都有它的用武之地。被誉为应用线性代数最有价值的结果之一。1、PCA原理从线形代数的角度来看，PCA的目标就是使用另一组基去重新描述得到的数据空

2、间。而新的基要能尽量揭示原有的数据间的关系，而这个基即最重要的“主元”。PCA的目标就是找到这样的“主元”，最大程度的去除冗余和噪音的干扰。设：Y=PX（1）并定义：pi表示P的行向量，xi表示X的列向量，yi表示Y的列向量。公式1表示不同基之间的转换，在线性代数中，它表示P从X到Y的转换矩阵，在几何上，P对X进行旋转和拉伸得到Y。将公式1展开：Y=PX=p1⋮p2x1…x2Y=p1.x1…p1.xn⋮⋱⋮pm.x1…pm.xn,列向量yi=p1.xi⋮pm.xi可得到yi表示xi与P中对应列的点积，相当于是在对应向量上的投影。因此，P的行向量事实上就是一组新的基

3、，P的行向量就是PCA中所谓的“主元”。为了使得获得Y具有类间方差大，类内方差小，冗余信息少的特点，下面将对P的求解进行分析。1.1最大化方差假设我们还是将一个空间中的点投影到一个向量中去。首先，给出原空间的中心点：x=1Nn=1Nxn假设u1为投影向量，投影之后的方差：1Nn=1N{u1xn-u1x}2=u1Su1TS=x-x(x-x)2根据u1u1T=1，利用拉格朗日乘子法：u1Su1T+λ1(1-u1u1T)对上式求导，使之为0：Su1T=λ1u1T 这是一个标准的特征值表达式了，λ对应的特征值，u对应的特征向量。上式的左边取得最大值的条件就是λ1最大，也就

4、是取得最大的特征值的时候。其中，S可以看做X的协方差矩阵。1.1最小化冗余信息通常在试验中引入了一些不必要的变量，从而造成数据的冗余，对于复杂的情况，需要借助协方差来进行衡量和判断：A,B分别表示不同的观测变量所记录的一组值，在统计学中，由协方差的性质可以得到：σAB2≥0，且σAB2=0当且仅当观测变量A，B独立。将A,B写成行向量：A=a1a2…an,B=b1b2…bn协方差可以表示为：那么，对于一组具有m个观测值，n个采样时间点的采样数据X，将每个观测变量的值写成行向量，可以得到m*n的矩阵：X=x1⋮xn,定义协方差矩阵如下：Cx=1n-1XXTCx是m*

5、n的平方对称矩阵。Cx对角线上的元素是对应的观测变量方差。非对角线上的元素是对应的观测变量之间的协方差。Cx=σx1x12⋯σx1xm2⋮⋱⋮σxmx12⋯σxmxm2协方差矩阵Cx包含了所有观测变量之间的相关性度量。更重要的是，包含了所有观测变量之间的相关性度量。一般情况下，初始数据的协方差矩阵总是不太好的，表现为信噪比不高且变量间相关度大。PCA的目标就是通过基变换对协方差矩阵进行优化。在线性代数中，上述问题可以描述成：寻找一组正交基组成的矩阵P，有Y=PX，使得CY=1n-1YYT是对角阵。则P的行向量（也就是一组正交基），就是数据X的主元向量。对于CY进行

6、推导：CY=1n-1YYT=1n-1PX(PX)T=1n-1P(XX)TPTCY=1n-1PAPT定义A=XXT,则A是一个对称阵，对A进行对角化求取特征值得，A=EDET，D是一个对角阵，E是对称阵A的特征向量排成的矩阵。取P=ET，则A=PTDP，由线形代数可知矩阵P有性质P-1=PT，从而进行如下计算：CY=1n-1PAPT=1n-1PPTDPPT=1n-1PPTDPPT=1n-1D可知此时的P就是我们需要求得变换基。X的主元即是XXT的特征向量，也就是P的行向量。矩阵CY对角线上的第i个元素是数据X在方向Pi的方差。1.1最小化损失假设输入数据x是在D维

7、空间中的点，那么，我们可以用D个正交的D维向量去完全的表示这个空间（这个空间中所有的向量都可以用这D个向量的线性组合得到）。在D维空间中，有无穷多种可能找这D个正交的D维向量。假设找到了这D个向量，(ui为列向量)可以得到：xn=i=1Dαniui用近似法来表示投影后的点：xn=i=1Mzniui+i=M+1Dbiui上式表示，得到的新的x是由前M个基的线性组合加上后D-M个基的线性组合，注意这里的z是对于每个x都不同的，而b对于每个x是相同的，这样我们就可以用M个数来表示空间中的一个点，也就是使得数据降维了。但是这样降维后的数据，必然会产生一些扭曲，我们用J描述

8、这种扭曲，

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

PCA原理及应用,很详细

PCA原理及应用,很详细

相关文章

相关标签