基于投影的聚类算法研究及应用

基于投影的聚类算法研究及应用

ID:33101906

大小:1.40 MB

页数:47页

时间:2019-02-20

基于投影的聚类算法研究及应用_第1页
基于投影的聚类算法研究及应用_第2页
基于投影的聚类算法研究及应用_第3页
基于投影的聚类算法研究及应用_第4页
基于投影的聚类算法研究及应用_第5页
资源描述:

《基于投影的聚类算法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江南大学硕士学位论文基于投影的聚类算法研究及应用姓名:黄李国申请学位级别:硕士专业:计算机应用技术指导教师:王士同20070601摘曼摘要随着信息技术飞速发展,在信息处理过程中,人们发觋信息的数据量越来越大庞大。如何从大量的信息数据中获取人们所需要的知识?如:数据的分布,数据发展趋势等等,因而聚类作为一门数据分析工具也就应运而生,所诮聚类就是将物理或抽象对象的集合组成由类似的对象构成的多个类或簇的过程¨】。目的是使得属于同一类别的个体之间的差别尽可能的小而不同类别的个体之问的差别尽可能的大。目前聚类分析中大部分聚类算法都是针对低维数据的,而现实中涉及到信息处理数据大部分都是高维的,这就向传

2、统的聚类算法提出了挑战。文献f2】中提到,用传统的聚类算法如K.Means和K-Medoid方法直接处理这些高维数据效果非常不理想,于是人们采用“特妊提取”方法来降低数据集的维度,例如PCA算法,但这种降维方法很容易导致数据的信息丢失。最近的研究表明,在特定条件F高维数据的聚类都隐含在低维的子空间内,如何找出这些有效的低维子窄问?Agrawal等人【3J提出了投影聚类方法。投影聚类是把数据集通过映射变换投影到低维子空问内,然后借助各种方法划分出该子空间内的聚类,能够有效的降低数据集的维度,同时减少数据处理的复杂度。现有的投影聚类算法有:CLIQUEl31,PROCLUS[41,ORCLUS

3、l5’和EPCHl2’等。CLIQUE算法是首次涉及投影聚类与子空间问题,但是该算法要求子空问的延伸方向必须要与坐标轴平行,并且还需要用同一个极限值来划分不同投影维度的子空间,这显然是不合理的;而PROCLUS和ORcLus算法则主要通过寻找中心点来得到投影聚类和它们相关的子空间。PROCLUS要求发现投影的子空间延伸方向必须与平行,但ORCLUS算法没此限制,可以是任意延伸方向的子空间。EPCH算法I'】也是用来解决同样的问题,但它与前几个算法相比不仅复杂性降低了,而且有效性和精确性有很大的改进。通过分析EPCH算法,结合投影聚类的思想,我们采用不同的方法来划分子空问,提出了两个改进算法

4、,分别是:1)基于Parzen窗的投影聚类方法:该方法用投影聚类将高维数据投影到低维子空间,再用概率密度估计函数Parzen模拟子空J’RJ样本分布,通过合并密度区域得到聚类结果,实验证明其具有比EPCH更为精确的效果。2)基于Mean.Shift的投影聚类算法:该算法提出了一种用核函数将高维数据空间转化为低维空间,然后将低维子空削中数据划分到中心点代表的区域中,得到合并的聚类结果,实验证明其有效性。本文主要是介绍聚类分析的基奉概念、各种聚类算法及本人提出的两个改进算法。关键字:聚类予空闻划分直方图Parzen窝Mean—Shift投影聚类江南人学硕卜学位论义AbstractAlongwi

5、ththedevelopmentofinformationtechnology,thedataquantitythatpeopleuseintheinformationprocessingcanbemoreandmore.Howtogettheneedfulinformationfromthemassivedata,suchas:thedatadistribution,thetrendofdatadevelopment?Theclusterisjustproposedasthedataanalysist001.Thedusteristheprocessthatusethephysicale

6、ithertheabstractobjectsettoformclassesorclusterswhicharecomposedofthesimilarobject,andthegoalisenablesthedifferenceofindividualinthesamecategoryassmallaspossible,therewiththedifferenceofindividualinthedifferentcategoryasbigaspossible.Atpresent,mostofclassicclustersalgorithmsareaimatthelowdimension

7、data,butthedataintherealityismostlyinthehighdimension.Thereforeitisachallengetotheclassicclu'steralgorithms(InliteraturebitpointsoutthatthdeffectisnotidealviatheclassicclusteralgorithmlikeK-MeansandtheK—Medoid,an

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。