PCA原理及应用,很详细

PCA原理及应用,很详细

ID:47943351

大小:160.13 KB

页数:6页

时间:2019-11-09

PCA原理及应用,很详细_第1页
PCA原理及应用,很详细_第2页
PCA原理及应用,很详细_第3页
PCA原理及应用,很详细_第4页
PCA原理及应用,很详细_第5页
资源描述:

《PCA原理及应用,很详细》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、PCA原理与应用PCA是Principalcomponentanalysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线性代数最有价值的结果之一。1、PCA原理从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空

2、间。而新的基要能尽量揭示原有的数据间的关系,而这个基即最重要的“主元”。PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰。设:Y=PX(1)并定义:pi表示P的行向量,xi表示X的列向量,yi表示Y的列向量。公式1表示不同基之间的转换,在线性代数中,它表示P从X到Y的转换矩阵,在几何上,P对X进行旋转和拉伸得到Y。将公式1展开:Y=PX=p1⋮p2x1…x2Y=p1.x1…p1.xn⋮⋱⋮pm.x1…pm.xn,列向量yi=p1.xi⋮pm.xi可得到yi表示xi与P中对应列的点积,相当于是在对应向量上的投影。因此,P的行向量事实上就是一组新的基

3、,P的行向量就是PCA中所谓的“主元”。为了使得获得Y具有类间方差大,类内方差小,冗余信息少的特点,下面将对P的求解进行分析。1.1最大化方差假设我们还是将一个空间中的点投影到一个向量中去。首先,给出原空间的中心点:x=1Nn=1Nxn假设u1为投影向量,投影之后的方差:1Nn=1N{u1xn-u1x}2=u1Su1TS=x-x(x-x)2根据u1u1T=1,利用拉格朗日乘子法:u1Su1T+λ1(1-u1u1T)对上式求导,使之为0:Su1T=λ1u1T 这是一个标准的特征值表达式了,λ对应的特征值,u对应的特征向量。上式的左边取得最大值的条件就是λ1最大,也就

4、是取得最大的特征值的时候。其中,S可以看做X的协方差矩阵。1.1最小化冗余信息通常在试验中引入了一些不必要的变量,从而造成数据的冗余,对于复杂的情况,需要借助协方差来进行衡量和判断:A,B分别表示不同的观测变量所记录的一组值,在统计学中,由协方差的性质可以得到:σAB2≥0,且σAB2=0当且仅当观测变量A,B独立。将A,B写成行向量:A=a1a2…an,B=b1b2…bn协方差可以表示为:那么,对于一组具有m个观测值,n个采样时间点的采样数据X,将每个观测变量的值写成行向量,可以得到m*n的矩阵:X=x1⋮xn,定义协方差矩阵如下:Cx=1n-1XXTCx是m*

5、n的平方对称矩阵。Cx对角线上的元素是对应的观测变量方差。非对角线上的元素是对应的观测变量之间的协方差。Cx=σx1x12⋯σx1xm2⋮⋱⋮σxmx12⋯σxmxm2协方差矩阵Cx包含了所有观测变量之间的相关性度量。更重要的是,包含了所有观测变量之间的相关性度量。一般情况下,初始数据的协方差矩阵总是不太好的,表现为信噪比不高且变量间相关度大。PCA的目标就是通过基变换对协方差矩阵进行优化。在线性代数中,上述问题可以描述成:寻找一组正交基组成的矩阵P,有Y=PX,使得CY=1n-1YYT是对角阵。则P的行向量(也就是一组正交基),就是数据X的主元向量。对于CY进行

6、推导:CY=1n-1YYT=1n-1PX(PX)T=1n-1P(XX)TPTCY=1n-1PAPT定义A=XXT,则A是一个对称阵,对A进行对角化求取特征值得,A=EDET,D是一个对角阵,E是对称阵A的特征向量排成的矩阵。取P=ET,则A=PTDP,由线形代数可知矩阵P有性质P-1=PT,从而进行如下计算:CY=1n-1PAPT=1n-1PPTDPPT=1n-1PPTDPPT=1n-1D可知此时的P就是我们需要求得变换基。X的主元即是XXT的特征向量,也就是P的行向量。矩阵CY对角线上的第i个元素是数据X在方向Pi的方差。1.1最小化损失 假设输入数据x是在D维

7、空间中的点,那么,我们可以用D个正交的D维向量去完全的表示这个空间(这个空间中所有的向量都可以用这D个向量的线性组合得到)。在D维空间中,有无穷多种可能找这D个正交的D维向量。假设找到了这D个向量,(ui为列向量)可以得到:xn=i=1Dαniui用近似法来表示投影后的点:xn=i=1Mzniui+i=M+1Dbiui上式表示,得到的新的x是由前M个基的线性组合加上后D-M个基的线性组合,注意这里的z是对于每个x都不同的,而b对于每个x是相同的,这样我们就可以用M个数来表示空间中的一个点,也就是使得数据降维了。但是这样降维后的数据,必然会产生一些扭曲,我们用J描述

8、这种扭曲,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。