第6章主成分分析-PPT课件.ppt

第6章主成分分析-PPT课件.ppt

ID:58730335

大小:3.06 MB

页数:105页

时间:2020-10-04

第6章主成分分析-PPT课件.ppt_第1页
第6章主成分分析-PPT课件.ppt_第2页
第6章主成分分析-PPT课件.ppt_第3页
第6章主成分分析-PPT课件.ppt_第4页
第6章主成分分析-PPT课件.ppt_第5页
资源描述:

《第6章主成分分析-PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章主成分分析第一节主成分分析的原理第二节主成分的几何意义及求解第三节主成分的性质第四节主成分方法应用中应注意的问题第五节实例分析与计算机实现1第一节主成分分析的原理多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。利用这种“降维”的思想,诞生了“主成分分析”、“因子分析”、“典型相关分析”和“偏最小二乘回归”等统计方法。2主成分

2、分析的基本思想主成分分析(Principalcomponentsanalysis),也称主分量分析、主轴分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当这些自变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”

3、又保留了原数据的大部分信息。3例6.1:斯通关于国民经济的研究一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入i、总收入变化

4、率i以及时间t因素做相关分析,得到下表:4F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.11215主成分分析的数学表达6主成分分析的数学表达7主成分分析的数学表达8当一个变量只取一个数据时,这个变量提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指主成分Yi的变异性,用方差D(Y)

5、或D(Yi)表示。主成分分析的数学表达9主成分分析的数学表达?10主成分分析的数学表达11回忆正交矩阵的定义和性质:12主成分分析的数学表达13主成分分析的数学表达14主成分分析的数学表达15第二节主成分的几何意义及求解一主成分的几何意义二主成分的求解16一、主成分的几何意义根据上一节的分析,主成分分析从代数的角度看,就是求解p个原始变量的一些特殊线性组合(或者,对原始随机向量进行正交变换);从几何上看,这些线性组合就是把原先由X1,X2,……Xp构成的坐标系进行旋转而构成新的坐标系。新的坐标系,使得样本在延着坐标轴方向有最大的离散程度(方差最大)。主成分分析在二维空间(p=2)中

6、有最为明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃x1或x2分量不是“降维”的有效办法。17•••••••••••••••••••••••••••••••••••••主成分分析的几何意义平移、旋转坐标轴1

7、819易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量,n个点在y1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2为第二主成分。易见第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。20

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。