SPSS统计分析第9章 聚类和判别分析课件.ppt

SPSS统计分析第9章 聚类和判别分析课件.ppt

ID:57059298

大小:1.01 MB

页数:47页

时间:2020-07-30

SPSS统计分析第9章 聚类和判别分析课件.ppt_第1页
SPSS统计分析第9章 聚类和判别分析课件.ppt_第2页
SPSS统计分析第9章 聚类和判别分析课件.ppt_第3页
SPSS统计分析第9章 聚类和判别分析课件.ppt_第4页
SPSS统计分析第9章 聚类和判别分析课件.ppt_第5页
资源描述:

《SPSS统计分析第9章 聚类和判别分析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第九章聚类和判别分析主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.1聚类与判别分析概述9.1.1基本概念(1)聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同,聚类分析可分为对样本的聚类和对变量的聚类两种。(2)判别分析判别分析是判别样本所属类型的一种统计方法。9.1聚类与判别分析概述9.1.2样本间亲疏关系的度量(1)连续变量的样本间距离常用度量主

2、要方法有欧氏距离(EuclideanDistance)、欧氏平方距离(SquaredEuclideanDistance)、切比雪夫距离(ChebychevDistance)、明可斯基距离(MinkowskiDistance)、用户自定义距离(CustomizeDistance)、Pearson相关系数、夹角余弦(Cosine)等。(公式见教材表7.9)(2)顺序变量的样本间距离常用度量常用的有统计量(Chi-squaremeasure)和统计量(Phi-squaremeasure)。(公式见教材表7.10)9.1聚类与判别分析概述9.1.1基本概念(3)二者区别不同之

3、处在于,判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样本进行差别分析。9.1聚类与判别分析概述说明:聚类分析的目的是找到样本中数据的特点,因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量,则应先对变量进行标准化处理,而后再进行聚类。变量间的关系度量模型与样本间相类似,只不过一个用矩阵的行进行计算,另一个用矩阵的列进行计算。主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值

4、聚类9.4系统聚类9.5判别分析9.2二阶聚类9.2.1基本概念及统计原理(1)基本概念二阶聚类(TwoStepCluster)(也称为两步聚类)是一个探索性的分析工具,为揭示自然的分类或分组而设计,是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法(HierarchicalAlgorithms),目前主要应用到数据挖掘(DataMining)和多元数据统计的交叉领域——模式分类中。该过程主要有以下几个特点:分类变量和连续变量均可以参与二阶聚类分析;该过程可以自动确定分类数;可以高效率地分析大数据集;用户可以自己定制用于运算的内存容量。9.2二阶聚类9.2.

5、1基本概念及统计原理(2)统计原理两步法的功能非常强大,而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外,为了处理分类变量和连续变量,它用似然距离测度,它要求模型中的变量是独立的,分类变量是多项式分布,连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。9.2二阶聚类9.2.1基本概念及统计原理(3)分析步骤第1步预聚类:对每个观测变量考察一遍,确定类中心。根据相近者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树(CF)。第2步正式聚类:使用凝聚算法对特征树的叶节点分组,凝聚算法可用来产生一

6、个结果范围。9.2二阶聚类9.2.2SPSS实例分析【例9-1】某机构为了调查学生性别和所学专业与毕业后初始工资的情况,调查抽取了60个学生的数据,如表9.1所示(其中“性别”1代表男性,0代表女性;“学科”1代表农学,2代表建筑,3代表地质,4代表商务,5代表林学,6代表教育,7代表工程,8代表艺术),试根据样本指标进行聚类分析。第1步分析:由于自变量中不仅有连续属性,也有分类变量,故采用二阶聚类进行分析。第2步数据组织:按表所示定义变量,输入数据并保存。9.2二阶聚类第3步二阶聚类设置:按“分析→分类→两步聚类”顺序打开“二阶聚类分析”对话框,并按下图进行设置。9

7、.2二阶聚类第4步主要结果及分析:二阶聚类的模型概要和聚类质量情况聚类个案情况图从中可以看出,此算法采用的是两步(二阶)聚类,共输入3个变量,将所有个案聚成3类。聚类的平均轮廓值为0.6(其范围值为-1.0~1.0,值越大越好),说明聚类质量较好。可以看出各类所占的比例情况9.2二阶聚类第4步主要结果及分析:各个案所属的分类号情况主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.3K-均值聚类9.3.1基本概念及统计原理(1)基本概念K-均值聚(也称快速聚类)是由用户指定类别数的大样本资料的逐步聚类分析。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。