几种多元统计分析方法及在生活中的应用.doc

几种多元统计分析方法及在生活中的应用.doc

ID:55163633

大小:116.00 KB

页数:49页

时间:2020-04-29

几种多元统计分析方法及在生活中的应用.doc_第1页
几种多元统计分析方法及在生活中的应用.doc_第2页
几种多元统计分析方法及在生活中的应用.doc_第3页
几种多元统计分析方法及在生活中的应用.doc_第4页
几种多元统计分析方法及在生活中的应用.doc_第5页
资源描述:

《几种多元统计分析方法及在生活中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章聚类分析及其应用实例2.1聚类分析简介聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性來进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的[']。聚类分析方法有很多,按不同的分类方式,有不同的分类。按聚类方法的不同可分为以下几种:(1)系统聚类法:对所在的指标进行分类,每一次将最相似的两个数据合并成一类,合并之后和其他数据的距离会重新计算,这个步骤会不断重复下去直至所有指标合并成一类,并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法):所谓调优法,从表面意思就可以

2、看出是在对n个对象初步分类后,根据分类后的信息损失尽可能小的原则对分类进行择优调整,直到分类合理为止.(3)有序样品聚类法:在很多实际问题中,所谓的样品都是相互独立的个体,因此可以平等的划分。但是有序样品聚类法的存在就是因为在另外一些实际问题中,样品之间是存在着某种联系而在分类中是不允许打乱顺序的。有序样品聚类法开始时将所有样品归为一类,然后根据某种分类准则将其分为二类等等,一直往下分类下去直至满足分类要求。它的思想正好与系统聚类法的相反。(4)模糊聚类法:利用模糊聚集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法:在处理分类问题

3、中独创性的引入了图论中最小支撑树的概念。(6)聚类预报法:顾名思义,就是用聚类分析的方法来在各个领域中进行预报。在多元统计分析中,判别分析、回归分析等方法都可以用来做预报,但是在一些异常数据面前,这些方法做的预报都不是很准确,方法也不好准确的实施,而聚类预报则很好的解决了这一点。可以预见,聚类预报法经过更深入的研究后,一定会得到更加广泛的应用。按聚类对象的不同,聚类分析可分为2型[对样品(CASES)聚类]与型[对变量(VARIABLE)聚类],两种聚类在方法和步骤上都基本相同.2.2聚类分析方法介绍数学方法在实际应用中是否受欢迎,最主要的一点就是它能不能适用于大型6第2章聚类分析及.

4、11;应用实例 计算的问题。图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中难以快速有效处理数据而应用甚少。基于目标函数的聚类方法因其设计简单,在实际生活中被广泛运用,其主要思想是将问题转换为带约束条件的非线性优化,这样就可以运用完备的线性最优化知识解决问题,而且这种方法也易于在计算机上实现。而伴随着计算机技术的突飞猛进,基于目标函数的聚类方法必定会成为研究的热点。2.2.1谱系聚类方法在待分析样本数较小时,通常采用谱系聚类方法(系统聚类法)。谱系聚类法是按距离准则来对样本进行分类的,例如我们要将样本集X中的《个样本划分为C类。那么算法的实现过程如下:首先令这^个样本各自为一

5、个类,此时,总的类数为《;其次,计算这/7个类别之间的相互距离,合并距离最小的两个样本,这样总得分类数就只有个;然后计算新形成的个类别之间的距离,同样合并最小的两个类,使类别减少为n-2个,依此原则,继续合并;最后,当总的类别只剩下C类时,停止计算,分类结束,此时的C类就是聚类的结果。需要注意的是,在此过程中,计算类与类之间的距离的方法有很多种,具体选择什么方法,需要视具体情况而定。计算类间距离的方法,后续也会有比较详细的介绍。根据上述聚类原则,我们很快可以知道,对于样本集里的任意两个样本X々和Xj’它们总是可以聚类到一个类别中去。“上述所介绍的,只是谱系聚类算法中的一种,这种算法一般

6、称为聚集法,它比较适合于类别比较多的时候,当类别较少时,用此种方法就显得计算量非常的大,使得分类效率不高;另一种谱系聚类算法叫做分裂法,它与聚集法初始时将所有样本卑独分成一类刚好相反,它是将所有样本当成一类,然后在将某些样本分离出去,形成其他的类别,这样就节省了相当一部分的计算量。在实际运用中,具体选择哪种方法来聚类就得以具体情况为准。上述算法中的分类仅仅依靠样本间的距离或者类间距离,因而,距离的计算决定了分类结果。距离的计算种类有:闽可夫斯基距离(包括街区距离、欧氏距离和切比雪夫距离等),也可以选择马氏距离、角度相似性函数或者Taniraoto测度。其中马氏距离定义DI=-m)'C~

7、'-m)(2—1)这里X为模式向量,w为均值向量,C为模式总体的协方差矩阵.马氏距离的优点k是排除了模式样本之间的相关性影响.比如,我们取一个模式特征向量,可能有九7第2章聚类分析及用实例 如果B类是由E和F两类合并而成的,则有2.最长距离法[9】与上述相似,两个聚类A和B间的最长距离定义为=max{i/Jaee5}(2—5)同样地,如果B类是由E和F两类合并而成的,贝max3.中间距离法[9]如果B类是由E和F两类合并而成的,则A类和B类之间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。