基于密度的层次聚类算法研究.pdf

基于密度的层次聚类算法研究.pdf

ID:50118005

大小:11.66 MB

页数:72页

时间:2020-03-06

基于密度的层次聚类算法研究.pdf_第1页
基于密度的层次聚类算法研究.pdf_第2页
基于密度的层次聚类算法研究.pdf_第3页
基于密度的层次聚类算法研究.pdf_第4页
基于密度的层次聚类算法研究.pdf_第5页
资源描述:

《基于密度的层次聚类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、UniversityofScienceandTechnologyofChina硕士学位论义论文题目于密度的层次聚类算法研走张文幵作者姓名计算机软件与理办学科专业养索教梭导师姓名二〇一五年五月完成时间十科嗲敉水大嗲硕士学位论文基于密度的层次聚类算法研究作者姓名:张文开学科专业:计算机软件与理论导师姓名:李京教授完成时间:二一五年五月二十二曰UniversityofScienceandTechnologyofChinaAdissertationformaster'sdegreeResearchonDensity-basedHierarchicalClusterin

2、gAlgorithmAuthor'sName:::中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研宄工作所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研宄所做的贡献均已在论文中作了明确的说明。中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数

3、据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。口保密(年)签字日期:‘摘要摘要聚类在模式识别中被称为无监督分类,在统计学中被称为非参数估计。其目的是在无先验知识的情况下,根据数据对象之间的相似性来完成数据分类,从而加深对数据的理解,或者作为一种数据压缩的工具。聚类分析被广泛使用在众多领域,比如计算机视觉、生物信息学、图像处理、数据库知识发现等。虽然数以千计的聚类算法已经被提出,但挑战依然存在:类形状不一,处理高维数据,怎样决定聚类结果中类的数量,结果中一个

4、正确的类如何定义,聚类结果难以评价等等。通过指定数据所在的聚集区域的基于密度的聚类算法在处理形状复杂的类上表现很好。近期,提出了一种新的密度聚类算法该算法和其他密度聚类算法一样,能处理复杂形状的聚类,也不需要提前指定数据中类的数量。同时,需要较少的用户指定参数。与一些迭代聚类算法相比,该算法运行时间低。另外,该算法的研究小组利用人脸数据库中的图片聚类证明了处理高维数据的能力。然而,通过分析,我们发现看似如此优雅的算法在面临一些情况时效果不好。首先,相对稀疏的类中心容易被的决策图所忽略。另外,该算法聚类成功有一个很严格的条件那就是数据集里每个类中有且仅有一个密度

5、极值点,超过一个则算法结果中类会被分裂。受层次聚类算法的启发,本文提出了一个新的基于密度的层次聚类算法,即基于。具体地,我们在类中心选取时使用积极策略得到初始聚类结果,然后利用一个改进的类间距离计算模型计算不同类间相似度,根据相关数据逐步融合子类得到最终的聚类结果。该算法可以发现稀疏的类,且打破了对聚类中心的严格需求,能更好地应用于无密度极值点的数据。我们通过实验证明了算法在没有唯一密度极值点的数据集上的仍然有效,并且在实验中,我们的算法获得了不输于数据来源处所使用的算法的聚类效果。另外,在本算法中,参数选择更加容易。关键字:聚类密度极值近邻图层次聚类相似性密

6、度高密度距离AbstractABSTRACTClusteringisknownastheunsupervisedclassificationinpatternrecognition,ornonparametricdensityestimationinstatistics.Theaimistopartitiongivendatasetofpointsorobjectsintonaturalgrouping(s)accordingtotheirsimilaritytoimproveunderstandingontheconditionofnopriori-know

7、ledge,orbeasamethodtocompressdata.Clusteranalysishasbeenwidelyusedinalotoffields,likecomputerversion,bioinformatics,imageprogressing,,,,,,todeteriminetheparameters.KeyWords:clustering,densitypeaks,,,,目录目录第章绪论数据挖掘简介聚类分析聚类分析中的相似度计算聚类算法研究现状本文工作相关研究背景论文主要内容及贡献本文组织第章基于密度的启发式算法及相关实验引言算法中几

8、个重要参数算法算法的伪代码和时间复杂度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。