基于密度的改进型层次聚类算法研究

基于密度的改进型层次聚类算法研究

ID:35064344

大小:2.19 MB

页数:48页

时间:2019-03-17

基于密度的改进型层次聚类算法研究_第1页
基于密度的改进型层次聚类算法研究_第2页
基于密度的改进型层次聚类算法研究_第3页
基于密度的改进型层次聚类算法研究_第4页
基于密度的改进型层次聚类算法研究_第5页
资源描述:

《基于密度的改进型层次聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391密级:公开专业学位研究生学位论文论文题目(中文)基于密度的改进型层次聚类算法研究ResearchonImprovedHierarchical论文题目(外文)ClusteringAlgorithmBasedonDensity研究生姓名李彩云学位类别工程硕士专业学位领域电子与通信工程学位级别硕士校内导师姓名、职称万毅教授校外导师单位、姓名论文工作起止年月2014年9月至2016年4月论文提交日期2016年4月论文答辩日期2016年5月学位授予日期2016年6月校址:甘肃省兰州市原创性声明本人郑重声明:本人所呈交

2、的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:日期:关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,

3、允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。本学位论文研究内容:□可以公开□不宜公开,已在学位办公室办理保密申请,解密后适用本授权书。(请在以上选项内选择其中一项打“√”)论文作者签名:导师签名:日期:日期:基于密度的改进型层次聚类算法研究中文摘要数据挖掘是帮助我们从海量数据中发现有价值的信息的一种重要工具,而聚类分析又是数据挖掘中的一个重要

4、的研究方向。聚类分析在生物学、统计学、机器学习、商业决策等领域都得到了成功应用。目前的聚类算法都比较有针对性,所以对于更高效、更准确、更全面的聚类算法的研究仍然是一大热点。层次聚类是聚类分析的一个重要分支,本文重点分析研究了层次聚类算法,并对一些代表算法的聚类性能进行了分析比较。CURE算法是一种典型的层次聚类算法,该算法对收缩因子这一参数很敏感,而且噪声和孤立点很难界定。针对CURE算法存在的不足,本文提出了一种改进的基于密度分层的层次聚类算法。改进算法将数据集中的点按照密度大小排序,将密度最小的约10%的点作为偏离点(包

5、括噪声和孤立点)排除掉。将剩余的点按照密度大小分层,在密度最大和最小两层上分别进行凝聚层次聚类,然后在分层聚类的基础上对所有剩余点进行凝聚层次聚类。最后将偏离点划分到与之最近的已聚好的类中。改进算法对噪声和孤立点不敏感,不需要收缩因子这一参数,对多种非球形簇有很好的聚类效果。通过对比实验证明,改进算法的聚类效果明显优于CURE算法,算法效率也在一定程度上优于CURE算法。另外,本文还详细分析了2014年AlexRodriguez在science上发表的文章ClusteringbyFastSearchandFindofDens

6、ityPeaks中提出的一种新颖的基于密度的CBDP算法。针对CBDP算法只能处理类内数据分布不均匀、不同类的数据密度差距不大的数据集的缺点,提出了一种改进的层次聚类算法。改进算法通过计算数据的密度和距离,排除了密度很小而距离很大的噪声和孤立点,使改进算法对噪声和孤立点不敏感。通过绘制数据的密度和距离乘积分布图,即i—ρi∗δi分布图来确定密度峰值点。然后以密度峰值点为中心,计算最小类间距离,不断进行类的合并,直至达到聚类数目。在二维和多维数据集上的实验证明了改进算法的聚类结果明显优于CBDP算法,而且聚类效果更稳定。关键词

7、:聚类分析,层次聚类,CURE算法,CBDP算法IResearchonImprovedHierarchicalClusteringAlgorithmBasedonDensityAbstractDataminingisanimportanttooltohelpusfindvaluableinformationfromthemassivedata,andclusteranalysisisanimportantresearchdirectionofdatamining.Clusteranalysishasbeensuccessfu

8、llyappliedinthefieldsofbiology,statistics,machinelearningandbusinessdecisionetc.Thecurrentclusteringalgorithmsaretargetedandtheresearchonthemoree

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。