应用统计学课件.ppt

应用统计学课件.ppt

ID:58434048

大小:986.50 KB

页数:91页

时间:2020-09-07

应用统计学课件.ppt_第1页
应用统计学课件.ppt_第2页
应用统计学课件.ppt_第3页
应用统计学课件.ppt_第4页
应用统计学课件.ppt_第5页
资源描述:

《应用统计学课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基本思想聚类分析的基本思想:对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标,具体找出一些能够度量样品或指标之间的相似程度的统计量。以这些统计量为分类的依据,把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小,把关系密切的样品聚合到一个小的分类单位,关系疏远的样品聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来,形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图),用它把所有样品(或指标)间的

2、亲疏关系表示出来。聚类分析和判别分析的区别应该指出,聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型,这些类型不是事先给定的。而判别分析则事先已知类型的划分.通常每一类都有一个训练样本,据此得出判别函数或判别准则,从而对新样品的归属作出判别。与多元分析的其它方法相比,聚类分析的方法很粗糙,理论也尚不完善。但由于它的应用取得很大成功,和回归分析和判别分析一起被称为多元分析的三大实用方法。本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后,简要介绍一种模糊聚类法。§4.1分类统计量聚类分析不仅可

3、以对样品进行分类,也可以对指标(变量)进行分类。设有个样品,每个样品有个指标。对观察值,可根据间的某种相似性,对个样品进行分类。例如某班有个学生,可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面,也可对指标进行分类。即根据某种相似性,把这个指标进行分类。例如在服装设计中,往往要测量很多的指标(变量),如身高,上体长,臂长,肩宽,胸围等。对这些指标,大致可分为两大类。一类反映人的高矮,另一类反映人的胖瘦。分类统计量对样品进行分类的方法称为Q型聚类法。由于每个样品可看成是p维空间的一个点,n个样品就组成p维空间中的n个点。这时,自然可以用距离来度量样品之间的

4、相似性。而对指标(变量)进行分类的方法,称为R型聚类法。指标(变量)间的某种相似性,常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。4.1.1样品间的“相似性”度量—距离设每个样品有p个指标,观察值记为(4.1.1)每个样品可看成是p维空间的一个点。于是,可用各点之间的距离来衡量各样品点之间的接近程度。样品和之间的距离,一般应满足如下的三个条件:(ⅰ),且时当且仅当;(ⅱ);(ⅲ);有时所用的距离不满足(ⅲ),但在广义的角度上仍称为距离。常用的距离有如下几种:1.明考斯基(Minkowski)距离(明氏距离)(4.1.2)明氏距离有如下三种特殊形式。2.绝对距离

5、(m=1)(4.1.3)3.欧氏距离(m=2)(4.1.4)4.切比雪夫(Chebychev)距离(m=∞)(4.1.5)数据的标准化方法当各指标的观察值相差很大时,则不应直接采用明氏距离。这时应对每个指标的数据进行标准化,然后对标准化数据计算距离。令(4.1.6)(4.1.8)(4.1.7)分别表示第个指标的样本均值、样本方差和样本极差。标准化方法或极差标准化(4.1.9)(4.1.10)当考虑这些指标(变量)之间的相关性时,可采用方差加权距离或马氏距离。数据的标准化方法有标准差标准化5.方差加权距离(4.1.11)其中为第个指标的方差。6.马氏(Mahalanobis

6、)距离其中为维向量的协方差矩阵。当和未知时,可用作为的估计,而用作为的估计,记,则(4.1.12)其中例4.1.1欧洲各国的语言有许多相似之处,有的十分相近。为了研究这些语言之间的历史关系,对数字1,2,…,10的单词作比较,表4.1.1列出了英语(E),挪威语(N),丹麦语(Da),荷兰语(Du),德语(G),法语(Fr),西班牙语(S),意大利语(I),波兰语(P),匈牙利语(H)和芬兰语(Fi)11种语言的单词1,2,…,10的拼写方法,希望计算这11种语言之间的距离。表4.1.111种欧洲语言的数词选择适用的距离在聚类分析中通常要结合实际问题来选择适用的距离,有时

7、应根据实际问题定义新的距离,下面的例子说明了这一点。显然,本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似,特别是每个单词的第一个字母。于是可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如英语和挪威语中只有1和8的第一个字母不同,则它们之间的距离为2。这11种语言两两之间的距离列于表4.1.2。表4.1.211种欧洲语言之间的距离4.1.2变量间的“关联性”度量—相似系数越接近1,说明指标(变量)与的关系越密切。用表示的个观察值()。常用的相似系数有以下几种:聚类分析方法不仅可以样

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。