多元统计分析第五章_主成分与经验正交分解

多元统计分析第五章_主成分与经验正交分解

ID:12794739

大小:226.00 KB

页数:187页

时间:2018-07-19

多元统计分析第五章_主成分与经验正交分解_第1页
多元统计分析第五章_主成分与经验正交分解_第2页
多元统计分析第五章_主成分与经验正交分解_第3页
多元统计分析第五章_主成分与经验正交分解_第4页
多元统计分析第五章_主成分与经验正交分解_第5页
资源描述:

《多元统计分析第五章_主成分与经验正交分解》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、多元统计分析第五章_主成分与经验正交分解第5章主成分分析与经验正交分解5.1主成分分析数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很必要的。首先我们看一个例子。例5.1为了调查学生的身材状况,可以测量他们的身高()、体重()、胸围()和坐高()。可是用这4个指标表达学生身材状况不方便。但若用=3.6356+3.3242+2.4770+2.1650表示学生身体魁梧程度;用=-3.7><973<9+1.3582+3.7323-1.572<9表示学生胖瘦程度。则

2、这两个指标(,)很好概括了4个指标(-)。例5.1中,学生不同,身高()、体重()、胸围()和坐高()不同;(,,,)是4维随机向量;,是他们的2个线性组合,,能很好表示,,,的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1<9<91)、Richard(

3、2003),主成分分析在气象等科学中称为PCA方法,见吴洪宝(2005)。主成分分析的数学模型是:对于随机向量X,想选一些常数向量,用尽可能多反映随机向量X的主要信息。也即尽量大。但是的模可以无限增大,从而使无限变大,这是我们不希望的;于是限定模的大小,而改变各分量的比例,使最大;通常取的模为1最方便。定义5.1设随机向量二阶矩存在,若常数向量,在条件=1下使最大,则称是X的第一主成分或第一主分量。由定义可见,尽可能多地反映原来p个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立

4、其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含的信息)。定义5.2若常数向量c=在条件=l,下,使最大,则称是X的第二主成分;若常数向量c=在条件=l,,下,使最大,则称是X的第三主成分;…。当随机向量方差已知时,定理5.1给出主成分的计算公式。定理5.1设随机向量方差存在为。特征值从大到小为,对应的彼此正交单位特征向量为。则X的第j个主成分为与X的内积,即(6.1)证明:任取p维单位向量c,必有。于是,而在条件下,当,即时,最大,所以X的第一主成分是与X的内积。由条

5、件,可得,于是,从而;所以在条件=1、下,当时,最大,所以X的第2个主成分为与X的内积。对第三,第四……主成分同样可证。由证明过程可见:。它称为第i个主成分的方差贡献,表示第i个主成分变化大小,从而反映第i个主成分提供的信息的大小。例5.2设,且则=3.87<93<9,=[0.2<93128,-0.84403,-0.44<90<9<9]=1.6527,=[0.44<90<9<9,-0.2<93128,0.84403]=0.467<911,=[0.84403,0.44<90<9<9,-0.2<93128]

6、所以第一主成分就是=0.2<93128-0.84403-0.44<90<9<9;第二主成分就是=0.44<90<9<9-0.2<93128+0.84403;第三主成分就是=0.84403+0.44<90<9<9-0.2<93128。它们的方差贡献分别是;;。定义5.3称为主成分的方差贡献率;称为前k个主成分的累计方差贡献率;与X第k个分量的相关系数称为因子负荷量。例5.2中,方差贡献率分别是方差贡献与6的商,即0.6466,0.2755和0.0780。累计方差贡献率分别是0.6466、0.6466+0.

7、2755=0.<9220和1。当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。通常取q,使前q个主成分的累计方差贡献率达到70%-80%,然后只考虑前q个主分量,用它们解释随机向量X的特性,其余主成分认为是观测误差等随机因素造成的。例5.2中只要前两个主成分就够了。在实际问题中,X的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。为了避免量纲对主成分的影响。常常将随机变量都标准化,即令,它就是无

8、量纲量,令再求X*的主成分,即标准化后的主成分。将代入,可求随机向量X的主成分。容易证明定理5.2设随机向量X的相关阵为,特征值为,对应的彼此正交单位特征向量为,则标准化后X的第j个主成分是。因此,标准化后的主成分称为由相关阵决定的主成分。直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。这是因为优化的准则(目标函数)不同:前者要求=最大,而后者要求==最大,其中。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。