基于高维空间的聚类技术研究

基于高维空间的聚类技术研究

ID:33091759

大小:2.32 MB

页数:74页

时间:2019-02-20

基于高维空间的聚类技术研究_第1页
基于高维空间的聚类技术研究_第2页
基于高维空间的聚类技术研究_第3页
基于高维空间的聚类技术研究_第4页
基于高维空间的聚类技术研究_第5页
资源描述:

《基于高维空间的聚类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中北大学硕士学位论文基于高维空间的聚类技术研究姓名:和亚丽申请学位级别:硕士专业:计算机应用技术指导教师:陈立潮20050301中北大学学位论文摘要随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工具之一。如何正确处理维度达到数百、数千的数据集合,如何从高维数掘集中寻找潜在的、自然存在的聚类簇,这是当前聚类分析研究的热点。本文针对聚类分析的热点和难点问题⋯.高维聚类展开研究,目的是寻求有效的高维聚类算法,以及有效的高维数据离群点发现

2、和聚类结果表达等技术。本文研究了高维聚类分析的关键技术,主要工作有:l、针对高维数据空间下聚类簇的分布特点,改进了一种基于子空间的映射聚类算法。本文应用柏努利分布表示二元数据的分布特征,把基于有限混合柏努利分布模型与EM(Expectation—Maximization)算法相结合的高维二元数据映射聚类方法,一方面发现各种子空间下的聚类簇,一方面为每个簇指定相应的属性子集,实现了不同子空间下聚类簇的挖掘。2、从映射聚类算法出发,设计了一种高维空间离群点发现的算法。首先,运用一种映射聚类的算法寻找数据点相对密集的子空间。为了尽

3、快找到这些数据簇及其相应的子空间,可以对数据进行二元处理,即把全部数据集转化为二元数掘,然后运用二元数据映射聚类方法找到映射簇及相关联的属性集合;第二,根据属性熵的定义,对每个属性集合的每~属性判别其离散程度;第三,在离散程度较大的属性集合中确定离群点:第四,进行簇间属性集合的交叉分析,发现跨予窄J剐的离群点。3、仔细研究基于粗集理论的高维聚类结果表达方法。认为聚类簇必须以有效的方式加以表达,相对完整地传达聚类运算的结果,以利于人工交互,完成知识发现的后续操作。因此,聚类结果的可表达性、可解释性是聚类算法必须考虑的关键技术。

4、本文运用粗集(roughset)理论,引入属性空间上的粗糙集理论,考虑数据在对象空间和属性空间的不同特性,使聚类结果特征从对象空间和属性空间两个角度得到了综合反映,并以规则的形式表示聚类知识,既可全面表示数据聚类结构,也可实现聚类增量计算。关键词:数据挖掘高维聚类映射聚类离群点检测聚类结果表示粗集理论中北大学学位论文TheResearches013RelatedtoKeyTechnologiesamongClusteringbasedonHigh—dimensionalDataSpaceABSTRACTHe、,aliChen

5、LichaoWiththewideusageofinformationtechnology,datageneratedfromvariesinformationsystemsbecomemoreandmore,andthehigherefficiencydataminingtoolswasneededtofindvaluableknowledgepatterns.Clusteringanalysisisaimportantmethodindatamining.Itisadiscoveryprocessthatgroupsas

6、etofdatasuchthattheintra.clustersimilarityismaximizedandtheinter-clustersimiIarityisminimized.Clusteringofdatainalargedimensionspaceisofagreatinterestinmanydataminingapplications.Withhi.渗·dimensionalitydatasets,howtofindthelatentandnatureclustersiSmoredimcultandnee

7、dtoberesolved.TheresearchesOItrelatedtokeytechnologiesamongclusteringbasedonhigh—dimensionaldataspacearemadeinthedissertation.ItiSfocusedonthehi曲efficiencyclusteringalgorithms,outlinerdetectingalgorithms,clusteringresultpresentationmethods,andSO0nItisthebasicworktO

8、definethesimilarityforhigh.dimensionaldataobjects.Basedontheimprm,edsimilarit}rdefinitionmethod,thekeytectmologieshavebeenstudiedinthisdissertati

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。