主成分分析方法

主成分分析方法

ID:43791122

大小:203.72 KB

页数:6页

时间:2019-10-14

主成分分析方法_第1页
主成分分析方法_第2页
主成分分析方法_第3页
主成分分析方法_第4页
主成分分析方法_第5页
资源描述:

《主成分分析方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主成分分析方法在经济问题的研究屮,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量乂很多。这些特点,使我们在研究复杂的问题时,容易抓住主要孑盾。那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法.一.主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际问题中,为了全面分析问题,

2、往往提出很多与此有关的变量(或因索),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量Z间是有一定的相关关系的,当两个变量Z间冇一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所冇变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。信息的大小通常用离差平方和或方差来衡量。主成分

3、分析的基础思想是将数据原来的P个指标作线性组合,作为新的综合指椒耳,尸2,…,Fp)。其屮丘是“信息最多”的指标,即原指标所冇线性组合屮使vaiW)最大的组合对应的指标,称为第一主成分;耳为除林外信息最多的指标,即cov(Fl9F2)=()Rvar(F2)最大,称为第二主成分;依次类推。易知许迅,…,巧互不相关且方弟递减。实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。主成分的几何意义:设冇n个样品,每个样品冇两个观测变量X,-维平面的散点图。n个样本点,无论沿着X】轴方向还是X?轴方向

4、,都有较大的离散性,其离散程度可以用X

5、或X2的方差表示。当只考虑一个时,原始数据中的信息将会有较大的损失。若将坐标轴旋转一下:Fi=X

6、cos&+X?sin0F{=X〕sin&+X?cos&‘COS&、一sin&cos&人X2丿=ux且有UfU=I,即t/是正交距阵,则n个样品在好轴的离散程度最大(方差最大),变量许代表了原始数据的绝大部分信息,即使不考虑厲,信息损失也不多。而且许,耳不相关。只考虑仟时,二维降为一维。主成分分析是一种进行信息压缩的方法。通过这种方法,可以将原来相关的若干变量,变换成不相关的变量。二•

7、求主成分方法步骤:(1)对样本数据的标准化设有n个样甜,P个指标,得到的原始资料矩阵%y2i712尹22…儿?…y2py=••••••••••••宀1儿2•…V为了实现样木数据的标准化,应求样木数据的平均和方差。样木数据的标准化是基于数据的平均和方差进行的。因为在实际应用中,往往存在指标的量纲不同,所以在计算Z前须先消除量纲的彩响,而将原始数据标准化。对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为:(iX.=J6=12…小其中:样本均值样本标准差2X)得标准化后的数据矩阵了兀11X12X22X2p

8、(2)计算相关矩阵对于给定的n个样本,求样本间的相关系数。相关矩阵中的每一个元索由相应的相关系数所表示。(R=XXf=^21其屮1IX兀刃_1k=l(3)求特征值和特征向量设求得的相关矩阵为R,求解特征方程:R-Xi=0通过求解特征方程,可得到m个特征值(i二1〜ni),和对应于每-•个特征值的ip;i二1〜m特征向量:ai=(an,ai2,...,Hi且有入1三入2上入3三入m三0li.设相应X1的特征向量Ai=(ali,a2i,・・・,Qpi)i二1〜m(4)求主成分(取线性组合)根据求得的ni个特征向量,ni个

9、主要成分分别为:Fi=a11X1+a12X2+・・・+aipXpF2二a21X1+a22X2+・・・+a2PxpFm=amJXi+am2x2+・・・+amPxp上式就是主成分分析的模型,其通式为:Fi二Q11X1+CL12X2+・・・+QipXpi二1,2,...in称为主成份,称Fl是第一主成份,F2是第二主成份,Fi是第i主成份。求各主成份的关键是求特征根(X)及其相应的特征向量(0)。主成分分析以较少的H1个指标代替了原来的p个指标对系统进行分析,这给我们对系统的综合评价带来了很大的方便。(5)定义:称丄为第一主

10、成分的贡献率。这个值越大,表明第i主成分综合P/=1信息的能力越强。称上」为前m个主成分的累计贡献率。表明取前几个主成分基本包含了全部测Pf=l量指标所具冇信息的百分率。保留多少个主成分取决于保留部分的累积方差在方差总和屮所占百分比(即累计贡献率),它标志着前儿个主成分概描信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。