谱系聚类在综合国力分析中的应用.pdf

谱系聚类在综合国力分析中的应用.pdf

ID:52458309

大小:610.55 KB

页数:4页

时间:2020-03-27

谱系聚类在综合国力分析中的应用.pdf_第1页
谱系聚类在综合国力分析中的应用.pdf_第2页
谱系聚类在综合国力分析中的应用.pdf_第3页
谱系聚类在综合国力分析中的应用.pdf_第4页
资源描述:

《谱系聚类在综合国力分析中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第18卷第1期云南民族大学学报(自然科学版)Vo.l18No.12009年1月JournalofYunnanNationalitiesUniversity(NaturalSciencesEdition)Jan.2009谱系聚类在综合国力分析中的应用陈磊余建坤邢晓宇(云南财经大学信息学院,云南昆明650221)摘要分析数据挖掘领域的聚类分析方法及代表算法,比较这些算法的性能,对数据挖掘中的谱系聚类进行举例说明.实践证明谱系聚类是一种有效的可用于数据预处理的离散化方法,可以快速和合理的解决粗糙集数据挖掘中数据预处理的

2、问题.关键词数据挖掘;聚类算法;谱系聚类;SAS中图分类号TP311文献标识码A文章编号16728513(2009)01-0085-04TheApplicationofPedigreeClusterstotheAnalysisoftheComprehensiveNationalStrengthChenLeiYuJiankunXingXiaoyu(SchoolofInformation,YunnanUniversityofFinanceandEconomics,Kunming650221,China)Abstra

3、ct:Thepapergivesananalysisoftheclusteringmethodsandtherepresentativeclusteringalgorithms,comparesandillustratestheirperformancesindatamining.Ithasbeenprovedthattheproblemsofdatapreprocess-inginroughsetdataminingcanbesolvedrapidlyandreasonablywiththisdiscretepreprocess

4、ing.Keywords:datamining;clusteralgorithm;pedigreeclusters;SAS数据挖掘(DataMining)是指从存放在数据库、数1数据挖掘领域中聚类算法分类据仓库或其他信息库中的大量数据中提取隐含的、未知的、有潜在应用价值的信息或模式的过程.数据挖聚类分析一般有2种类型,既按样品聚类或按掘用于从超大规模数据库(VLDB)中提取感兴趣的信变量聚类,其基本思想是通过定义样品或对变量间[1]息.聚类是数据挖掘的重要工具.聚类通过建立数接近程度的度量,以此为基础,将相近的样品学

5、模型,根据数据相似性将数据库划分为不同的部或变量归为一类.聚类算法通常有分层聚类、分割聚分,使得类内数据尽可能相似,类间数据差异尽可能类、基于密度的聚类、基于栅格的聚类、字符属性联大.用于数据挖掘的聚类算法用于处理超大规模数据合聚类、高维数据聚类和神经网络聚类等7种.这种库时,数据属性的种类非常多,因此要尽量降低算法分类并非完全正交的,相互之间有交叉.的复杂度.数据挖掘的根本在于统计学,统计方法中1.1分层聚类层次方法多元数据分析三大方法之一的聚类分析则是数据挖对给定的数据集进行层次性的分解,直到某种掘采用的核心技术,已成为数据

6、挖掘领域中一个非常条件满足为止.层次聚类方法可分为自下而上和自活跃的研究课题.本文先对数据挖掘中的聚类算法进上而下2种基本方法.自下而上方法是以数据对象行分析,并从多个方面对常用算法的性能进行比较.作为原子类,然后将这些原子类进行聚合.逐步聚合最后运用一个谱系聚类的实例来说明聚类算法在数成越来越大的类,直到满足终止条件.自上而下方法据挖掘中的重要作用.是首先将所有数据对象作为一类,然后逐步分解成越来越小的类,直到满足终止条件.层次聚类方法的*收稿日期:2008-07-07.作者简介:陈磊(1984~),男,硕士研究生,主要研究方

7、向:数据挖掘.通讯作者:余建坤(1962~),男,教授,主要研究方向:数据挖掘.85云南民族大学学报(自然科学版)第18卷缺陷在于,一旦一个步骤完成,它就不能被撤销,因种算法都有许多种具体的算法及其改进,在此只能此就不能更正错误的决定.改进层次方法聚类质量以最基本的代表性算法作为参考依据.的一个有希望的方向是将层次聚类和其他聚类技术表1各种主要聚类算法的性能比较进行集成,形成多阶段聚类.大数据量不规则数据类数的确定初值的影响抗干扰性复杂度分层聚类较差较好可未知小很差O(N2)1.2分割聚类划分方

8、法分割聚类较差很差已知很大很差O(N2)分割聚类是应用范围最广的聚类,通常采用贪大规模聚类很好较差可未知较大较差O(N)密度聚类较差很好可未知小好O(N)-O(N2)婪算法迭代优化以降低运算量并能得到较好的聚类2模糊聚类较差很差已知大较差O(N)效

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。