【精品】主成分分析.doc

【精品】主成分分析.doc

ID:49407034

大小:413.00 KB

页数:12页

时间:2020-03-01

【精品】主成分分析.doc_第1页
【精品】主成分分析.doc_第2页
【精品】主成分分析.doc_第3页
【精品】主成分分析.doc_第4页
【精品】主成分分析.doc_第5页
资源描述:

《【精品】主成分分析.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1主成分分析定义在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变暈之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全-血地反映原来多项变量的信息,同时相互之间不相关。主成分分析正是满足上述要求的一种处理多变量问题的方法。主成分分析(PrincipalComponentAnalysis,PCA),将多个变暈通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。2主成分分析基本思

2、想主成分分析是考察多个变量间相关性的一种多元统计方法。它是研究如何通过少数儿个主分量来解释多个变量间的内部结构。也就是说,从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。它常被用來寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻的揭示事物的内在规律。但是在实际应用中,主成分分析更多的只是一种达到目的的中间手段,而并非目的本身,它往往会被作为许多大型研究的小间步骤,在对数据进行浓缩后继续采用其他多元统计方法以解

3、决实际问题。xip(1)主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n个地理样本,每个样本共有P个变量描述,这样就构成了一个nXp阶的地理数据矩阵:X11X12X21*22MM如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在P维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即

4、新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为X"X2,…,X"它们的综合指标一一新变量指标为Xi,X2,…,zm(mWp)o贝!Jxi=lnx1+l12x2+・・・,+1心“21衍+1沪2+…,+山知Zm=31+32+…,+】mpXp在(2)式中,系数1订由下列原则來决定:(l)zi与Zj(iHj;i,j=l,2,…,m)相互无关;(2)zi是x】,x2,…,Xp的一切线性组合中方差最大者;Z2是与乙不相关的X,,X2,…,的所有线性组合中方差

5、最大者;;z提与Z,Z2,都不相关的X,X2,…,禺的所有线性组合中方差最大者。这样决定的新变量指标乙,"…,zm分别称为原变量指标x,x?,…,xp的第一,第二,…,第m主成分。其中,Zi在总方差中占的比例最大,Z2,z3,…,Zm的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,乂抓住了主要矛盾,简化了变量之间的关系。从以上分析可以看出,找主成分就是确定原来变量£(j二1,2,…,p)在诸主成分Zi(i=l,2,…,m)上的载荷1门(i=l,2,…,m;j=l,2,…,p),从数学上容易知道,它们分别是X,X"

6、…,Xp的相关矩阵的m个较大的特征值所对应的特征向量。主成分分析就是设法将原来的P个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合。为了能更清晰的解释主成分的基木思想,我们从用两个指标来衡量n个样木点的二维空间入手。在二维空间,门个样本点的变量信息若用离差平方和来表示,则变量的信息总量为总方差丄亍(冷-兀)2+丄£(兀2一丘2)2。对于每个变量的离差平方和,它n/=1n/=1们的取值可能出现各种情况:⑴如果离差平方和乞(心-和2和-局尸之/=1/=1间相差悬殊,如取值之比为10:1,说明变量儿在方差总信息量中

7、占较重要的地位,可剔除变量X2达到降维的目的;⑵如果£(心音)2和亍(兀2-元2)2数值相/=1/=1差不大,说明两个指标在方差总信息量中的比重相当,统计分析时,两个指标都不可放弃,此时可对XI、X2作适当的变量替换,通过某方法寻找到两个新的变量y..v2(必须是原变量xi、X2的线性组合),使新变量满足:£(儿一歹

8、)2+£()%—歹2)2=£(旺1一亍J'+£(旺2—元2才'/=1j=Ir=l/=!(其中心討:y?=lyZ2),上式说明新变量y继承了原变量x的全部信息,并且要求£(儿-冃)2和£(”2-刃)2数值比例相差较大,这时仅用力來/=!/

9、=!分析原问题就可以了,变量的个数从2变为了1。此时的刃方差最大,包含的信息最多。幻称之为第一主成分,刈称为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。