第十一章 多元统计分析

第十一章 多元统计分析

ID:18502930

大小:1.38 MB

页数:36页

时间:2018-09-18

第十一章  多元统计分析_第1页
第十一章  多元统计分析_第2页
第十一章  多元统计分析_第3页
第十一章  多元统计分析_第4页
第十一章  多元统计分析_第5页
资源描述:

《第十一章 多元统计分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十一章多元统计分析第一节聚类分析聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类,随着生产技术和科学的发展,分类越来越细,要求越来越高,仅靠经验和专业知识不能进行确切的分类,于是统计这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来,数理统计的多元方法被引入到分类学中,从分类学中逐渐分离出聚类分析这个新的分支,逐渐形成了今天在自然科学领域及社会经济领域里广泛应用的聚类分析。聚类分析是多元统计分析方法中的一种,它是根据样品的多种指标的数据,定量的确定它们之间存在的相似性,

2、根据这些样品或指标的相似程度,将其归为若干个类群,构成分类谱系图。聚类分析可以分为Q型与R型两种,Q型聚类主要用于样品的分类,R型聚类主要用于指标的分类。基本思想:选择一个统计量用来衡量对象间的相似程度,按照相似程度的大小依次进行连结,从而绘制出分类谱系图。本节主要讨论Q型聚类分析。一、数据的变换处理在一些社会经济问题中,假设对n个样品测试其p个指标,得到如下数据矩阵:其中,Xij是第i个样品的第j个指标的观测值。特别,当各个指标的测量单位,测量结果的量纲存在较大差异时,有必要聚类之前对数据作相应得变换处

3、理。1、数据的中心化中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。令其中:中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0。1、数据的正规化规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即有:经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;并且变换后的

4、数据都不再具有量纲,便于不同的变量之间的比较。2、数据的标准化标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。二、聚类分析中的统计量研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,

5、相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。1、距离在Q型聚类中,如果把n个样品(X中的n行)看成p维空间中的n个点,则两个样品间的相似程度可用p维空间中的两点的距离来度量。令表示样品与的距离。常用的距离:对于正规化的数据,有。越小,第i个样品与第j个样品就越相似;反之,相似性就越小。2、相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相思系数是描述样品之间相似程

6、度的一个度量,常用相似系数有:(1)夹角余弦将任何两个样品与看成p维空间的两个向量,这两个变量的余弦用表示,即为两个样品的相似系数:其中,。当接近于1,说明与相似密切;,说明与完全不一样;越接近于0,说明与差别大。(2)相关系数将第i个样品与第j个样品之间的相关系数定义为:其中:其中,。当接近于1,说明与相似密切;,说明与完全不一样;越接近于0,说明与差别大。由以上定义可知,对于标准化数据而言,相关系数与相似系数这两个统计量是完全一样的。三、分类的步骤分类之初,所有样品自成一类。(1)计算n个样品两两之间

7、的距离{},记作D=()(2)合并距离最近的两类为一新类(3)计算新类于当前各类的距离(4)画聚类图(5)决定分类个数和类在连结过程中,可采取最长距离法、中间距离法、最短距离法、重心法类、平均法等,根据实际情况选择。四、案例分析为了更深入了解我国人口文化现状程度,利用2006年全国人口变动情况抽样调查样本数据对全国31个省、市、自治区进行聚类分析。分析选取了三个指标:(1)大专及以上文化程度的人口占全部人口的百分比(x1)(2)高中化程度的人口占全部人口的百分比(x2)(3)初中文化程度的人口占全部人口的

8、百分比(x3)分别来反映较高、中等、较低文化程度人口的状况,原始数据如下表:2006年全国人口变动情况抽样调查文化程度人口比例地区x1x2x3北京29.3623.1529.47天津15.2222.7836.44河北3.9311.4347.36山西6.6514.647.28内蒙古6.5114.7239.76辽宁9.5714.6545.18吉林7.0216.9141.98黑龙江6.1114.8244.52上海21.8325.883

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。