聚类分析(快速聚类和变量聚类) 上机指导

ID：47481725

大小：208.50 KB

页数：15页

时间：2020-01-11

资源描述：

《聚类分析(快速聚类和变量聚类) 上机指导》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、实验六聚类分析——动态聚类和变量聚类二、动态聚类法——FASTCLUS过程动态聚类又称为逐步聚类，基本思想是，开始先粗略地分一下类（先选一批凝聚点，让样品向最近的凝聚点聚集，就得到初始分类），然后按照某种最优的原则修改不合理的分类，直到分得比较合理为止。FASTCLUS过程的一般格式：PROCFASTCLUSMAXCLUSTER=n

2、RADIUS=t;VARvariables;IDvariable;FREQvariable;WEIGHTvariable;BYvariables;语句说明：PROCFASTCLUS语

3、句用来开始FASTCLUS过程，必须规定说明项MAXCLUSTER=或RADIUS=中的一个。说明项和常用选项：（1）MAXCLUSTER=n

4、MAXC=n:指定所允许的最大分类数，缺省为100.（2）RADIUS=t:为选择新的“凝聚点”15指定的最小距离准则。当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时，该观测可考虑用来作为新的“凝聚点”。t的缺省值为0.（1）DATA=SAS-data-set：给出进行聚类的观测数据集的名字。（2）OUT=SAS-data-set:聚类结果保存都新的数据集中，包含VAR中

5、变量，及新变量cluster和distance（观测与所属类间的距离）。（3）CLUSTER=name：规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.（4）DRIFT：执行逐个修改法（5）MAXITER=n：指定重新计算类的凝聚点的最大迭代次数。当n>0时，执行按批修改法。缺省为1.（6）DISTANCE：要求输出类均值之间的距离（7）LIST：要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。注意事项：应用举例：例215：试用FASTCLUS过程对16个地区农民生活水平的调查数据(数据集d

6、641)进行分类。SAS程序：procfastclusdata=d641out=out653maxc=4list;varx1-x6;idgroup;run;maxc=4：规定最大分类个数为4类list：要求列出分类结果。out=out653：指定生成名为out653的输出数据集，包含VAR中的变量，新变量cluster和新变量distance（观测与所属类中心的距离）。主要输出结果：动态聚类的初始凝聚点（数据不标准化）动态聚类的分类结果（数据不标准化）15第一类：北京、浙江第二类：上海第三类：河北、山西、黑龙江、山东、河南第四类：

7、内蒙、辽宁、吉林、江苏、安徽、福建、江西动态聚类产生的各类均值和标准差（数据不标准化）以下SAS程序首先调用STANDARD过程对数据作标准化变化，然后用标准化变换后的数据进行动态聚类分析。15Procstandarddata=d641mean=0std=1out=sta653;Varx1-x6;/*将数据集d641中的变量x1-x6标准化，输出到数据集sta653中*/Procfastclusdata=sta653out=out654maxc=4list;Varx1-x6;idgroup;Run;主要输出结果：动态聚类的初始凝聚

8、点（数据标准化）动态聚类的分类结果（数据标准化）15第一类：北京第二类：上海第三类:河北、山西、内蒙、山东、河南第四类：天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西三、变量聚类——VARCLUS过程VARCLUS过程的一般格式：15PROCVARCLUS语句及选项：数据集选项：（1）DATA=SAS-data-set：指定要分析的数据集，数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR（矫正过的相关系数矩阵）,COV,UCOV等的数据集。（2）OUTSTAT=SAS-data-ste：生成一个输出数据集，

9、包含均值、标准差、相关系数、类得分系数和类的结构。（3）OUTTREE=SAS-data-set：生成输出数据集，包含有聚类过程的树状结构信息，可用TREE过程画树状图。确定分类个数的选项：（1）MAXCLUSTERS=n

10、MAXC=n：规定所要求的最大分类个数，缺省为变量个数。（2）15MINCLUSTERS=n

11、MINC=n：规定所要求的最小分类个数，缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类（1）MAXEIGEN=n:规定每一类第二特征值所允许的最大值，缺省，若没有规定选项PROPO

12、RTION=或MAXC=，且输入数据集为相关阵时，缺省值为1；若输入数据集为协方差阵时，缺省值为变量方差的均值。该选项不能与CENTROID同时使用（2）PROPORTION=n

13、PERCENT=n：规定类分量必须解释的方差比例或百分比。若指定选项

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 15



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

聚类分析(快速聚类和变量聚类) 上机指导

聚类分析(快速聚类和变量聚类) 上机指导

相关文章

相关标签