数据挖掘中聚类分析算法的研究与改进

数据挖掘中聚类分析算法的研究与改进

ID:35183810

大小:3.88 MB

页数:55页

时间:2019-03-21

数据挖掘中聚类分析算法的研究与改进_第1页
数据挖掘中聚类分析算法的研究与改进_第2页
数据挖掘中聚类分析算法的研究与改进_第3页
数据挖掘中聚类分析算法的研究与改进_第4页
数据挖掘中聚类分析算法的研究与改进_第5页
资源描述:

《数据挖掘中聚类分析算法的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级硕士学位论文题目:数据挖掘中聚类分析算法的研究与改进英文并列题目:ResearchandImprovementonClusteringAnalysisAlgorithminDataMining研究生:张朋专业:软件工程研究方向:软件工程技术导师:戴月明指导小组成员:学位授予日期:2016年6月答辩委员会主席:张曦煌江南大学地址:无锡市蠡湖大道1800号二○一六年六月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含

2、本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:?細日期:心知月日_/^关于论文使用授权的说明本学位论文作者完全了解江南大学有关保留、使用学位论文的规定:江南大学有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存、一致汇编学位论文,并且本人电子文档的内容和纸质论文的内容相。保密的学位论文在解密后也遵守此规定。

3、签名:长詳巧导师签名:?曰期:年月曰I勺摘要摘要近年来互联网技术飞速发展,数据库中存储的数据越来越多。大量数据中可以发现有价值的规律和知识,于是人们就提出了数据挖掘的概念来解决这一问题。聚类为数据挖掘中的关键技术之一,用于发现在数据集中未知的类,普遍存在于各个研究领域,如机器学习、模式识别、图像处理和统计学等。数据挖掘已经广泛应用于各个领域,所面临的场景也变得错综复杂,聚类分析也面临新的挑战和内容。现在已经有许多聚类算法,这些算法都在尝试用不同的思路来实现聚类。这些算法主要存在的问题有:算法执行速度问题、类别问题、初始化问题、数据输入顺序问题、属性选择问题、

4、结果依赖输入参数的问题、噪声点的识别问题。结合以上分析,本文的主要内容如下:1、使用高斯混合模型的EM(GMM-EM)算法作为经典的基于模型的聚类算法,该算法假设整个数据集是由K个高斯分布生成的,通过EM算法求解极大似然来优化参数来拟合观测数据,简单并且易于实现。但算法在聚类过程中无法识别噪声点,最终的收敛效果也依赖于初始值的选择,本文提出一种基于密度检测的GMM-EM(DDGMM-EM)算法通过基于密度的方法来检测噪声点,利用基于密度和距离的方法进行初始值选择,改善了EM算法收敛效果。实验结果表明新算法可有效识别噪声点,降低初始值选择对收敛效果的影响,明显提高了聚类

5、准确率和稳定性。2、粗糙集均值(RoughC-means,RCM)算法把每个簇看作是一个粗糙集,每个对象只属于一个簇的下近似集或者多个簇的上近似集,实现了对数据集的软聚类,解决了簇的重叠问题。但是RCM算法在聚类过程中对每个属性均同等看待,而在现实中往往只有几个关键属性对聚类起作用。为了区分不同属性对聚类的不同影响,本文在RCM算法的基础上加入属性权重矩阵,提出了一种属性加权的WRCM(WeightedRCM)算法,在迭代过程中可以对权重进行动态调整。实验表明该算法不仅可以提高聚类的精确度,还能区分不同属性对聚类的重要性,实现关键属性的选择。3、最后,论文将聚类算法应

6、用于文本聚类,借助第三方工具对文本进行分词、提取关键词和去停用词,然后通过TF-IDF计算关键词对应的权重,生成文本特征向量,使用向量夹角的余弦值作为相似度,结合DDGMM-EM算法进行聚类,实现了一个简单的文本聚类工具,并通过对比表明了本文算法的有效性。关键词:数据挖掘;聚类;EM算法;K-means算法;粗糙集IAbstractAbstractInrecentyears,withtherapiddevelopmentofInternettechnology,alargeamountofdatahasbeencollected,whichenablesresearc

7、herstoproposelotsofdataminingmethodssincethedataisvaluable.Asoneofthekeytechnologiesindatamining,clusteringhasbeenappliedfordiscoveringthedisciplinarianofunknowndataset,andhasbeenutilizedinvariousresearchareas,suchasmachinelearning,patternrecognition,imageprocessingandstatistic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。