多元统计应用第4讲(聚类分析)

多元统计应用第4讲(聚类分析)

ID:46225694

大小:289.16 KB

页数:44页

时间:2019-11-21

多元统计应用第4讲(聚类分析)_第1页
多元统计应用第4讲(聚类分析)_第2页
多元统计应用第4讲(聚类分析)_第3页
多元统计应用第4讲(聚类分析)_第4页
多元统计应用第4讲(聚类分析)_第5页
资源描述:

《多元统计应用第4讲(聚类分析)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《数理统计及其应用》聚类分析ClusterAnalysis第一节聚类分析方法第二节聚类统计量第三节无量纲化方法第四节Q型系统聚类法第五节R型系统聚类法第六节快速聚类法推荐阅读第一节聚类分析方法聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。基本程序:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程

2、度的统计量,然后利用统计量将样品或指标进行归类。具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法:由小类合并到大类的方法由大类分解为小类的方法静态聚类法、动态聚类法按样本聚类(Q)、按指标聚类(R)在社会经济领域中存在着大量分类问题,如:对我国31个省市自治区独立核算工业企业经济效益进行分析,一般不是逐省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税、产值利税率等,根据这些指标对全国各省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。第二节聚类统计量一、概述二、Q型聚类统计量三、R型聚类统

3、计量概述设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。Q型聚类统计量(距离)把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclideandistance)3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev)R型聚类统计量对两个指标之间的相似程度用相似系数来刻划,相似系数的绝对值越接近于1,表示指标间的关系越密切,绝对值越接近于0,表示指标间的关系越疏远。1、夹角余弦2、相关系数3、同号率第三节无量纲化方法所谓无量纲化处理,是将原始数据矩阵

4、中每个元素按照某种特定的运算把它变成一个新值,且是数值的变化不依赖于原始数据中其它数据的新值。1、极差正规化(规格化变换、阈值法)2、标准化变换3、功效系数法4、相对化变换例:某年我国部分省市经济效益情况用以上几种方法对其无量纲化。指标实际值北京天津上海江苏广东产品销售率(%)资金利税率(%)成本利润率(%)劳动生产率(元/人)流动资金周转次数(次)净资产率(%)96.0114.909.51148301.6828.4095.729.213.35100041.7926.4898.4213.887.55155451.8025.5693.4310.753.9997082.2122.3095.16

5、10.255.03145901.8725.01第四节Q型系统聚类法系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。步骤:1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离{dij}4、合并距离最近的两类为一新类5、计算新类与当前各类的距离,重复(4)6、画聚

6、类图7、决定类的个数和类类与类间距离的确定一、最短距离法二、最长距离法三、中间距离法四、重心距离法五、类平均法六、离差平方和最短距离法(NearestNeighbor)以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042

7、.751.551.821.9613.2914.879.7611.3510.81例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分(spssex/ex501)G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。