主成分分析资料报告、聚类分析资料报告比较.doc

主成分分析资料报告、聚类分析资料报告比较.doc

ID:56967314

大小:402.00 KB

页数:18页

时间:2020-07-29

主成分分析资料报告、聚类分析资料报告比较.doc_第1页
主成分分析资料报告、聚类分析资料报告比较.doc_第2页
主成分分析资料报告、聚类分析资料报告比较.doc_第3页
主成分分析资料报告、聚类分析资料报告比较.doc_第4页
主成分分析资料报告、聚类分析资料报告比较.doc_第5页
资源描述:

《主成分分析资料报告、聚类分析资料报告比较.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、主成分分析、聚类分析的比较与应用主成分分析、聚类分析的比较与应用摘要:主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且举例说明了两者在实际问题中的应用。关键词:spss、主成分分析、聚类分析一、基本概念主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼

2、此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信

3、息的85%以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,...,x3,经过坐标变换,将原有的p个相关变量xi作线性变换,每个主成分都是由原有p个变量线性组合得到。在诸多主成分Zi中,Z1在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因

4、子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。聚类分析的基本思想是:采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入

5、不同的分类中一元,使分类更具客观实际并能反映事物的在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的在组合关系。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。(二)不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,

6、也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p个变量,实际应用中一般不是找p个主成分,而是找出m(m

7、找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又

8、不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类的相关性尽量大,类间相关性尽量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。