层次聚类中类间距离新定义

层次聚类中类间距离新定义

ID:33292264

大小:1.48 MB

页数:46页

时间:2019-02-23

层次聚类中类间距离新定义_第1页
层次聚类中类间距离新定义_第2页
层次聚类中类间距离新定义_第3页
层次聚类中类间距离新定义_第4页
层次聚类中类间距离新定义_第5页
资源描述:

《层次聚类中类间距离新定义》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学理学院硕士学位论文层次聚类中类间距离新定义姓名:叶剑俊申请学位级别:硕士专业:概率论与数理统计指导教师:张帼奋20090501摘要本文是在攻读硕士学位期间完成的,文章考虑的问题是聚类分析.在可获得的数据量呈现爆炸性增长的背景下,聚类分析作为数据挖掘的一个重要工具也越来越受到人们的重视.文章的创新点在于对层次聚类算法的类间距离提供了一种新的定义方式,即通过将类作为整体,而不是通过类中的样本来考虑类间距离.在具体的实施中,运用了两个思路,一个是提取代表元,另一个是将类中所有样本作为整体进行考虑,

2、并对每个思路提出了相应的定义.最后,通过对实验数据的分析,得出了较为有效的两种定义方式PCAHC和VRHC.文章的结构如下:第一章为引言部分,介绍了数据挖掘和聚类分析的研究现状和发展以及本文的研究内容和创新点.第二章中对聚类分析的一系列问题进行了回顾和总结.第三章对文章中要使用的相关方法进行了简要地介绍.第四章先回顾了已有的类间距离定义,然后利用相关的理论得出了类间距离的几种新定义方式,并简要介绍了相应的算法.第五章利用不同的数据集对第四章中所提出的算法进行了验证,通过比较分析选出了几种有效的定义方

3、式.在结论部分总结了本文所做的工作和有待解决的问题.关键词;数据挖掘聚类类间距离特征提取代表元AbstraetAbstractThemainsubjectofthisdissertationisaboutclusteringanalysis,whichiscompletedduringmymasterdegreeofscience.Inthebackgroundofexplosivegrowthofavailabledata,clusteringanalysisplaysamoreimportant

4、roleinourdailylifeasoneofimportanttechnologiesofdatamining.Theinnovationinpaperisthatanewmethodusedtodeterminethedistancebetweencategoriesinhierarchicalclusteringalgorithmsisproposed,thatis,considerseachcategoryasawholeratherthanthroughthesamplesincate

5、gorywhendeterminingthedistancebetweencategories.WeUSetwodifferentwaystoachievetheidea,onewayistoextractrepresentativeelementsofeachcategory,theotherwayistoconsiderallsamplesineachcategoryasawhole,andspecificdefinitionsforeachwayaregivenseparately.Twoef

6、fectivedefinitionsPCAHCandVRHCaregainedbycomparingtheclusteringresultsofeachdefinition.Chapteroneisaprefacewhichgivesanintroductiontothebackgroundanddevelopmentofclusteringanalysisanddatamining.Italsointroducestheprimarycontentofthisdissertation.Inchap

7、tertwo,abriefreviewofclusteringanalysisisgiven.Inchapterthree,relatedmethodswhichwillbeusedareintroduced.Inthefirstpartofchapterfour,theexistingdefinitionsofdistancebetweencategoriesarereviewed.Inthelatterpartofchapterfour,thenewdefinitionsofdistancebe

8、tweencategoriesareproposed.Inchapterfive,bothsimulateddatasetsandrealdatasetsareusedtoexaminethedefinitionsproposedinchapterthreeandseveraleffectivedefinitionsarechosenbycomparingtheclusteringresultsofdatasetsmentionedabove.Inthepartofc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。