统计分析方法.pdf

统计分析方法.pdf

ID:58661662

大小:229.90 KB

页数:16页

时间:2020-10-15

统计分析方法.pdf_第1页
统计分析方法.pdf_第2页
统计分析方法.pdf_第3页
统计分析方法.pdf_第4页
统计分析方法.pdf_第5页
资源描述:

《统计分析方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第7章统计分析方法数学模型是用变量及数学符号建立起的数学结构,用来表示客观事物的特征、内在联系及变化规律.在实际中,客观事物的某些特征的表现形式常具有不确定性,因此代表其特征的变量的取值也具有随机性.有时虽然这些变量不具有随机性,但由于观测条件的限制或随机因素的干扰,使得这些变量的观测值也具有随机性.这种变量或其观测值具有随机性的模型就属于随机模型.这类模型的建模方法通常采用统计方法.7.1聚类分析法聚类分析又称群分析,它是研究对样品或变量进行分类的一种多元统计方法.所谓“类”,通俗地说就是相似元素的集合.在实际问题中,经常遇到分类问题,例如对某城市按大气污染的轻重分成几类区域;对某

2、年级学生按各科的学习情况分为几种类型等等.分类是人类认识客观世界的基本方法之一.通过对某类事物的分类,可以分门别类地进行仔细研究,从而加深对这些事物的认识.早期的分类学主要靠专业知识进行分类,很少利用数学工具.随着生产和科学技术的发展,分类越来越细,分类准确性的要求也越来越高,于是数学工具逐渐被引进了分类学,并逐渐形成了“统计聚类分析”.本节主要介绍系统聚类法.7.1.1距离与相似系数设有n个样品,每个样品有p个值,得观测数据x(in1,,;j1,,p),通常将ij数据列成如下表的形式:变样量X1X2Xp品X(1)x11x12x1pX(2)x21x22x2pX

3、()nxn1xn2xnp聚类分析问题就是如何按这些变量值把n个样品分成k类.要对样品进行分类,就必须研究它们之间的关系.描述样品间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量与变量的类型密切相关,为此我们首先回顾一下变量的类型.⑴间隔变量.就是我们通常说的连续变量,如体重、身高、产量、温度等.⑵有序变量.这类变量没有明确的数量关系,只有次序关系,如质量的等级、对事物的评价分为好、中、差三个次序关系等.⑶名义变量.其变量值是几个没有次序关系的不同状态,如性别、职业、国别等.不同类型的变量在定义距离或相似性测度时有很大差异.在实际应用中更多遇到的是间隔变量数据

4、的聚类分析问题.下面的讨论着重于间隔变量.1.距离的概念一般来说,我们所考察的p个不同变量都有不同的量纲,不同的数量级单位,不同的取值范围.为了使不同量纲,不同取值范围的数据能够放在一起进行比较,通常需要对数据进行变换处理,以下两种是最常用的变换方法.nn112⑴标准化变换.令xjixj,sxji(jxj),那么xij的标准化变量为ni1n1i1xx*ijjx,in1,2,,;jp1,2,,.ijsj*变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据x与变量ij的量纲无关.⑵极差标准化变换.令R{}xx{},那么x的极差标准化变

5、量为jimaxjiminjij1in1inxx#ijjx,in1,2,,;jp1,2,,.ijRj#变换后的数据,每个变量的样本均值为0,极差为1,而且极差标准化变换后的数据x也是ij无量纲的变量.用d表示第i个样品X与第j个样品X之间的距离.常用的距离有以下几种.ij()i()jp⑴绝对距离:dxij(1)ikxjk.k1p21/2⑵欧氏距离:dxij(2)[ikxjk].k1pq1/q⑶闵科夫斯基(Minkowski)距离:dqij()[xxikjk].k1⑷切比雪夫距离:dxij()maxikxjk.1kp容易看到绝

6、对距离和欧氏距离都是闵科夫斯基距离的特例.闵科夫斯基距离的最大缺点是没有考虑变量间的相关关系.下面介绍一种考虑变量间相关关系的距离:马氏距离.11⑸马氏距离:dM()(XXSXX)(),其中S为样本协方差阵的逆ij()ij()()ij()n1方阵,Ss()ijpp,sxij()tixi()xtjxj,ij,1,2,,p.n1t12.相似系数聚类分析方法不仅用来对样品进行分类,有时还需要对变量进行分类.在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度.对于间隔变量,通常采用的相似系数有夹角余弦和相关系数.⑴夹角余弦.变量X的n次观测值(,,,

7、)xxx可以看成n维空间的向量,则向量i12iiniX和X的夹角a余弦cosa称为两向量的相似系数,记为C(1),即ijijijijnxxtitjt1Ca(1)cos,ij,1,2,,p.ijijnn22xxtitjtt11o当X和X平行时,其夹角a0,C(1)1,说明这两个向量完全相似;当X和X正ijijijijo交时,其夹角a90,C(1)0,说明这两个向量不相关.ijij⑵相关系数.相关系数就是对数据作标准化处理后的夹

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。