聚类分析(系统聚类过程) 上机指导

聚类分析(系统聚类过程) 上机指导

ID:11878662

大小:180.50 KB

页数:0页

时间:2018-07-14

聚类分析(系统聚类过程) 上机指导_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《聚类分析(系统聚类过程) 上机指导》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章聚类分析——系统聚类过程一、系统聚类法——CLUSTER(系统聚类)过程CLUSTER(系统聚类)过程的一般格式PROCCLUSTERMETHOD=name;必需的语句VARvariables;COPYvariables;IDvariables;可选语句BYvariables;FREQvariables;语句说明:1、PROCCLUSTER语句该语句的一般格式为:PROCCLUSTERMETHOD=name;该语句表示调用CLUSTER过程,并开始执行系统聚类分析。METHOD=name指定聚类

2、方法。常用的聚类方法及其SAS名如下:(1)AVERAGE

3、AVE(类平均法);(2)CENTROID

4、CEN(重心法);(3)COMPLETE

5、COM(最长距离法);12(1)DENSITY

6、DEN(密度估计法);(2)EML(最大似然谱系聚类);(3)FLEXIBLE

7、FLE(可变类平均法);(4)MCQUITTY

8、MCQ(McQuitty的相似分析方法);(5)MEDIAN

9、MED(中间距离法);(6)SINGLE

10、SIN(最短距离法);(7)TWOSTAGE

11、TWO(两阶段密度估计法);(8)WARD(Ward法或离差平方和法)

12、常用的选项:1).数据集选项(1)DATA=sas-data-set:规定输入数据集名。如果数据集的类型为TYPE=DISTANCE,那么数据被认为是距离阵,否则,认为是欧氏空问中的坐标数据,并计算欧氏距离。(2)OUTTREE=sas-data-set:生成记录聚类过程的输出数据集,用于画谱系聚类图的TREE过程可使用该数据集。如果缺省,采用DATAn规则来命名。2).聚类前的数据处理及聚类细节选项(1)STANDARD

13、STD:对变量进行标准化处理,使处理后的数据均值为0,方差为1,该选项仅用于输入的数据是坐标数据

14、;(2)NOSQUARE:阻止过程在使用AVE,CEN,MED或Ward等方法进行聚类时对距离进行平方;12(3)NOEIGEN:阻止计算立方聚类标准的特征根;(4)BETA:对可变类平均法规定参数值;(5)NONORM:防止把距离规范化为单位均值或单位均方。如同Ward法一起使用,该选项阻止过程用总离差平方和去类间平方和得到平方半偏相关。3).控制输出选项二、VAR语句三、COPY语句四、ID语句12应用举例(课本例6.4.1)例1:表6.7是我国16个地区农民1982年支出情况的抽样调查的汇总资料,每个地区都调查了反映每人平均生活消

15、费支出情况的六个指标.试利用调查资料对16个地区进行分类.goptionsftext="宋体";datad641;inputgroup$x1-x6;12cards;北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.409.8918.173.25内蒙128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林1

16、59.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.

17、2033.6133.773.85河南101.1823.268.4620.2020.504.30;procclusterdata=d641method=avestdpseudorsqouttree=b641;varx1-x6;idgroup;程序解释说明:method=ave:表示采用类平均法进行聚类std:要求对原始数据进行标准化,以消除指标之间由于量纲不同而不可比的问题;pseudo:输出伪F统计量和伪T2统计量,以确定分类个数;rsq:输出R2和半偏R2统计量,以确定分类个数;outtree=b641:生成记录聚类过程的输出数据集b

18、641,用于后面画谱系聚类图,缺省,自动以DATAn命名。varx1-x6;规定用于进行聚类分析的数值型变量;idgroup;12指定变量group作为识别聚类过程的输出,并作为outtree规定的数据集中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。