《研聚类分析》ppt课件

《研聚类分析》ppt课件

ID:27656356

大小:1.51 MB

页数:51页

时间:2018-12-05

《研聚类分析》ppt课件_第1页
《研聚类分析》ppt课件_第2页
《研聚类分析》ppt课件_第3页
《研聚类分析》ppt课件_第4页
《研聚类分析》ppt课件_第5页
资源描述:

《《研聚类分析》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类分析辽宁工程技术大学L.NTECHNICALUNIVERSITY研究分类问题的常用统计方法判别分析聚类分析快速聚类层次Q型聚类R型聚类聚类分析含义:聚类分析(ClusterAnalysis)又称群分析、点群分析、簇类分析等,根据事物本身的特性研究个体分类的方法,是研究“物以类聚”的一种方法。人们认识某类事物时往往先对这类事物的各个对象进行分类,以便寻找其中同与不同的特征。比如在医学领域的研究工作中,经常需要根据病人的一系列症状、体征和检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的

2、检查,另几种方法适合用于乙类病的检查;在教学领域,有些学生关系比较密切,会经常在一起,而与另外一部分同学则关系比较疏远,很少往来。也就是说学生根据他们自己的兴趣、爱好、学习成绩的好坏,会形成一些固定的小群体。不同群体之间的学生兴趣爱好、家庭背景则存在比较明显的差异。在国民经济领域,有时候需要根据各个省份的经济特点、产业结构、生产总值、人口、人均收入、消费特点等分成几个区域。比如分成经济发达地区、经济不发达地区、资源丰富地区、资源匮乏地区等。分成这样一些区域的好处,就是属于同一类的地区国家可以采用类似的经济政策等。应用聚类分析的例子市场销

3、售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的基本思想在聚类分析的基本思想是认为研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的

4、依据,把一些彼此之间相似程度较大的样本(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。聚类分析的基本方法分层聚类(HierarchicalCluster),反映事物特点的变量很多,根据所研究的问题选择部分变量对事物的某一方面进行研究。快速样本聚类(QuickCluster),就是对观测值进行聚类,是反映被观测对象特征的各变量进行分类;当要聚成的类数已知时,使用快速聚类过程可很快将观测量分到各类中去。分类数

5、的确定层次聚类法最终得到的只是一个树状结构图,从图中可以看出存在很多不同的类,但需要如何确定类的最佳个数。快速样本聚类之前需要指定分类数;确定分类数的问题是聚类分析中尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。在层次聚类过程中,首先把离得近的类合并,所以在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度大,两个差异很大的类合到一起,会使该系数增大。至少以下四个因素会大大影响聚类方法的使用效果:类的结构(主要指类的形状、

6、规模和个数)、奇异值(Outliers)的存在、类与类之间重叠的程度和相似测度的选择。奇异值是指和样本中其他的观测量差异很大的观测量,它远离其它观测量,自成一类。如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。那么可由系统首先选择k个观测量(也可以由用户指定)作为聚类的目标,n个变量组成n维空间。每个观测量在n维空间中是一个点。k个事先选定的观测量就是k个聚类中心,也称为初始类中心。按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去,得到第一次迭代形成的k类。根据组成每一类的观测量计算变量值均值,每一类中的n

7、个均值在n维空间中又形成k个点,这就是第二次迭代的类中心,按照这种方法迭代下去,直到达到指定的迭代次数或达到中止迭代的判据要求时,迭代就停止了,聚类过程也结束了。聚类分析的基本步骤1、数据标准化计算绝对偏差的平均值:其中计算标准度量值(Z-Score)2、计算对象之间的相异度通常使用距离衡量两个对象之间的相异度。常用的距离度量方法有:(1)明考斯基距离(Minkowskidistance):其中i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维的数据对象,q是一个正整数。当q=1时,d称为曼哈坦距离(Man

8、hattandistance)当q=2时,d就成为欧几里德距离:距离函数有如下特性:d(i,j)0d(i,i)=0d(i,j)=d(j,i)d(i,j)d(i,k)+d(k,j)(2)相关系数(3)马氏

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。