《主成分分析》PPT课件.ppt

《主成分分析》PPT课件.ppt

ID:51644544

大小:1.31 MB

页数:48页

时间:2020-03-27

《主成分分析》PPT课件.ppt_第1页
《主成分分析》PPT课件.ppt_第2页
《主成分分析》PPT课件.ppt_第3页
《主成分分析》PPT课件.ppt_第4页
《主成分分析》PPT课件.ppt_第5页
资源描述:

《《主成分分析》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、主成分分析PrincipalComponents本章主要内容前言主成分的几何解释主成分的数学模型样本主成分的求解及其性质主成分分析的进一步应用例子(1)一个人的身材需要用多项指标完整描述:身高、体重、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用身高和肥瘦两个综合指标就够了例子(2)一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、

2、纯公共支出、净增库存、股息、利息、外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率ΔI以及时间t因素做相关分析,得到下表:前言在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但指标太多,不

3、但会增加计算的复杂性,而且也会给合理分析问题和分析解释问题带来困难。在很多情况下,在某种程度上这些指标存在信息的重叠,具有一定的相关性在回归分析、聚类分析、判别分析等方法中,经常会有过多指标问题。处理不当的话,会影响最终统计分析的结果。因而,人们希望对这些变量加以“改造”,用少数的互不相关的新变量反映原始变量所提供的绝大部分信息,通过对新变量的分析解决问题。前言主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在多指标的数据分析中,压缩指标个数的讨论成为实际工作者关心的问题之一。主成分分

4、析就是将多个指标转化为少数几个综合指标的一种常用的统计方法主成分分析的涵义主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的数据进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标(主成分),从而在不丢掉主要信息的前提下避开了变量间共线性的问题,便于进一步分析。主成分分析能起到既减少指标个数,又不影响所要达到的统计分析的目的。要注意

5、的是,主成分分析方法往往是一种手段,它要与其它方法结合起来使用。常与回归分析、因子分析、聚类分析结合在一起使用问题的提出设在一个问题中,有n个个体,对每一个个体测定了p个指标,其观察值组成了一个矩阵这p个指标反映了n个个体之间的差异,能否从这p个指标中提取m个综合指标(m<p),使这m个综合指标仍然能基本保持原有的p个指标所提供的个体间的差异?压缩指标的可能性1、p个指标之间相互独立压缩不可能2、两个指标之间完全相关保留一个指标3、一般情况指标之间既不完全独立也不完全相关即0<r<1指标压缩才可能

6、主成分分析的几何解释-以两个变量为例y2y1设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。y2y1y2y1如果我们将xl轴和x2轴先平移,再同时按逆时针方向旋转θ角度,得到新坐标轴yl和y2。yl和y2是

7、两个新变量。根据旋转变换的公式:L2旋转变换的目的是为了使得n个样品点在yl轴方向上的离散程度最大,即yl的方差最大。变量yl代表了原始数据的绝大部分信息,在研究某些问题时,即使不考虑变量y2也无损大局。经过上述旋转变换原始数据的大部分信息集中到y1轴上,对数据中包含的信息起到了浓缩作用。yl,y2除了可以对包含在xl,x2中的信息起着浓缩作用之外,还具有不相关(图形中表现为正交)的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在yl轴上,而y2轴上

8、的方差很小。yl和y2称为原始变量xl和x2的综合变量。y简化了系统结构,抓住了主要矛盾。5维空间在平面上的投影y2y1x1x2x3x4x5y1=l11x1+l21x2+…+l51x5y2=l21x1+l22x2+…+l52x5x1x3x5x4x2y1y2标准化变换记原始变量为Z,标准化后的变量记为X。作标准化变换:原指标的相关系数矩阵Rj=1,2,…,p;k=1,2,…,n主成分分析的数学模型最简单的综合指标是原指标的线性组合,即将原始的p个变量进行线性组合,作为新

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。