对聚类及聚类评价若干问题研究

对聚类及聚类评价若干问题研究

ID:45773830

大小:320.86 KB

页数:101页

时间:2019-11-17

对聚类及聚类评价若干问题研究_第1页
对聚类及聚类评价若干问题研究_第2页
对聚类及聚类评价若干问题研究_第3页
对聚类及聚类评价若干问题研究_第4页
对聚类及聚类评价若干问题研究_第5页
资源描述:

《对聚类及聚类评价若干问题研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、南京航空航天大学博士学位论文对聚类及聚类评价若干问题的研究姓名:吕宗磊申请学位级别:博士专业:计算机应用技术指导教师:王建东20090401摘要聚类是数据挖掘屮的-项重要任务,在很多应用中起看重要的作用。现在已经冇很多成熟的聚类方法,每种方法的适用范围不尽相同。对丁•同样的数据,不同聚类方法得到的结杲也不尽和同。为了在具体的应用屮选择最恰当的聚类方法,人们从不同的角度提出了一些聚类评价方法。然而不同的评价方法对于同一结果的评价并不完全一致,每种评价方法都有自己的适用范围。超出了方法本身的适用范围将会导致方法的失效。如何保证聚类及聚类评价的有效性成为聚类应用的一个关键问题。本文从聚类的基本

2、概念出发对聚类及聚类评价屮的相关问题进行了系统的研究,主要包括以下几方血内容:一、提出了聚类相似性的一般形式。根据聚类的概念,聚类是一个依据给定相似性对数据集合进行划分的过程。相似性是聚类的关键所在。距离、密度等许多种模型都可以用來表示相似性,但是这些模型所刻画的并不是相似性的本质。为了准确反映聚类的本质,本文首先对■和似性的形式进行讨论;而后,从相似性的宜观含义出发,只保留那些立观的、明确的性质,得出相似性的一般形式。二、构造了聚类假设空间。假设空间是机器学习的重要理论基础。为了进一步研究聚类相关问题,本文在聚类相似性一般形式基础上构造了聚类的假设空间。并利用聚类假设空间分析了导致聚类

3、及聚类评价方法失效的主耍原因。三、建立了聚类的模态逻辑表示方法。聚类相似性、数据集合、簇指派是聚类的三个重要组成部分。木文在聚类相似性一般形式基础上将聚类対应于模态逻辑中Kripke语义结构,进而通过模态逻辑公式対聚类的结果进行表示,为深入分析聚类及聚类相关问题建立了理论基础。四、ffimr具有通川性的聚类评价方法。本文采川模态逻辑公式对聚类结果中各个数据所反映的信息进行刻画,根据数据反映的不同信息,本文提出了一种基于模态逻辑的聚类代农点方法。在此基础上,本文进一步提出了基于代表点的聚类评价方法,这种方法不受相似性计算方式的限制,具有较强的通用性。此外,代表点本身除了可对聚类结果进行定虽

4、的评判外,还可以给出有关聚类结來的定性分析。五、捉出了增虽聚类的风险理论及评价方法。聚类可以看作是归纳学习,而归纳有“失真”的风险。本文捉出并证明了归纳应该就近进行的原则。聚类的模态逻辑农示方法不但有助丁•常规聚类的评价,还可以用于对增址聚类的评价。不同增址数据中所反映的不同逻辑公式衣明了该数据进行归纳的风险。通过降低归纳风险可以得到较好的增呈聚类结果;而通过计算增量聚类结果的归纳风险则可以对增量聚类的结果进行评价。最后,本文通过具体的应川实例进一步验证了以上内容。英中合并小样本的应用中分别验证了聚类假设空间的可行性及在此基础上构造的聚类评价方法;航班延误定级应川验证了基于代表点的聚类评

5、价方法的可行性,以及该方法所得到的定星与定性双朿结來在实际工程中的应用价值。关键字:机器学习;聚类;假设空间;模态逻辑;代表点;增星聚类AbstractClusteringplaysanimportantroleinmanyengineeringapplications,suchasdataminingandsoon.Therearemanymaturemethodstodoclustering.Thescopeofapplicationofdifferentmethodsmaybenotsamewithothers.Forthesamedataset,differentclusteri

6、ngmethodsmaygetdifferentclusters.Tochoosethesuitableclusteringmethods,someclusteringvalidityindexeshavebeenpresented・However,differentindexesmayleaddifferentconclusions・Eachmethodhasitsownapplicationscope・Whentheapplicationexceedsthescope,themethodmaybeinvalid.Itisveryimportanttoensurethevalidity

7、ofbothclusteringandclusteringvalidityindexinapplications.Thispaperwilldiscusstherelatedproblemaboutclusteringandclusteringvalidityindexfromthebasicconceptsofclustering,includingthefollowingaspects.1.Thenormalformofthes

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。