基于网格和最近邻居聚类算法的研究

基于网格和最近邻居聚类算法的研究

ID:32021115

大小:2.06 MB

页数:70页

时间:2019-01-30

基于网格和最近邻居聚类算法的研究_第1页
基于网格和最近邻居聚类算法的研究_第2页
基于网格和最近邻居聚类算法的研究_第3页
基于网格和最近邻居聚类算法的研究_第4页
基于网格和最近邻居聚类算法的研究_第5页
资源描述:

《基于网格和最近邻居聚类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学硕士学位论文基Tfl格和展近邻居的聚类算法的研究摘要近年来,数据挖掘逐渐成为研究的热点。数据挖掘是从大量数据中发现知识,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类是数据挖掘的一个活跃的研究领域,对聚类的研究与实现具有重要的理论与实践意义。本文研究数

2、据挖掘中的聚类算法。针对现有的聚类算法中存在的问题,提出了几个新颖的算法。本文的主要贡献和创新工作包括:1)为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDBS)。GDBS具有密度算法的优点,也就是能发现各种形状的聚类并能屏蔽噪声点,而且执行效率还明显优于密度算法。2)研究了CHAMELEON算法,剖析了在类间密度相差不是特别大时.该算法不能作出正确聚类的原因。通过实验发现严格k.最临近集(SKNNk)比一般的k.最临近集(1洲o)更能反映数据集密度的变化。3)引入SK

3、NNk和LINKk,用新的SIM(A,B)作为相似度指标代替RI(A,B),对CHf址诬LEON作了一种改进。本算法可以很好的区分不同密度、形状和大小的类。并且抗嗓能力较好。算法对参数的选择也不是很敏感。4)基于严格最近邻和共享最近邻的思想,提出一种新的相似度标准,并设计出一种新的SKNN聚类算法。该算法能够有效地处理包含有不同密度的簇的数据,并且能够很好地区分相连着的类密度相差不是太大的簇。而且在处理高维数据时,具有较低的时间复杂度。51搭建了模拟实验环境,通过模拟实验验证了本文算法的有效性。关键词

4、:数据挖掘,聚类算法,相似度,密度,网格,最近邻居中国科学技术大学硕士学位论文基于网格和最近邻居的聚类算法的研究AbstractInrecentyears,dataminingisbecomingahotspot.Datamimngistodiscoverknowledgeinalargescaleofdata,it’sasubjectwhichinvolvedlotsofsciencedomainssuchasdatabasesystem,statistics,machinelearning,inf

5、ormationretrievalandhi曲performancecomputation,andit'swidelyusedinmanyapplications.Theproblemofclusteringistopartitionthedatasetintosegmentssothatintra-clusterdataaresimilarandinter-clusterdataaledissimilar.Clusteringisanactiveresearchfieldofdatamining,a

6、ndit’svaluableforfurtherresearch.Thispaperstudiesclusteringalgorithm.Accordingtotheproblemsofexistingalgorithm,weproposesomenewefficientalgorithms.Belowwegiveabriefdescriptionofmajorcontributionsinthepaper:1、Toimproveefficiencyofdensity-basedclusteringM

7、gofithmsanddealwitll’constrainsofnon—spatialattributes,anovelspatial"clusteringalgorithmcalledGDBSisproposed.GDBScandiscoverclusterswitharbitraryshapeandscreennoisedata,andtheexecutingefficiencyismuchhigherthanthetraditionalDBSCANalgorithm.2)WestudytheC

8、hameleonalgorithm,analyzedthereasonwhythisalgorithmcarlnotmakecon'eetclusterswhiletheclusteringdatasetscontainclusterswithadjacentclusterswithsimilardensities.WefindoutthattheStrictK-NearestNeighborscanreflectthedeIlsitychangeofd

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。