模糊c均值聚类算法的研究与改进

模糊c均值聚类算法的研究与改进

ID:34063026

大小:5.14 MB

页数:70页

时间:2019-03-03

模糊c均值聚类算法的研究与改进_第1页
模糊c均值聚类算法的研究与改进_第2页
模糊c均值聚类算法的研究与改进_第3页
模糊c均值聚类算法的研究与改进_第4页
模糊c均值聚类算法的研究与改进_第5页
资源描述:

《模糊c均值聚类算法的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、A坊esissubmittedtoZhengzhouUniversityforthedegreeofMasterTheStudyandImprovementofFuzzyC—meansClusterAlgorithmByWangzhenboSupervisor:Prof.BaozhiQiuComputerSoftwareandTheorySchoolofInformationEngineeringMay2014原创性声明J删删㈣删删删删删Y2545509本人郑重声明:所星交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明弓l

2、用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:王击反藉日期:1口l}年§月豁日学位论文使用授权声明本人在导师指导”F完成的论文及褶关的职务作品,知识产权归属郑俏大学。根糟郑j稍大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和僭阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印,缩印或者其他复制手段保存论文和汇编本学位论文。本入离

3、校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在鳃密后应遵守此规定。学位论文作者:王扳倚日期:≥羽誓年亨月2箩日摘要聚类分析是数据挖掘领域最为重要的技术之一,也是学术界研究的热点问题,至今已在理论和方法上取得了丰硕的研究成果,并在各个领域的数据分析中起到重要作用。在众多的聚类算法中,基于划分的K均值聚类算法最为经典,应用领域广泛。模糊C均值算法属于其中的一个变种,保持了其思想简单易行的特点,时间复杂性接近线性,对大规模数据的挖掘具有高效性和伸缩性。为了解决多维数据集中对象之间的基于欧式距离度量的相

4、似性度量差别不是很明显的问题,提出了基于变异系数的模糊C均值聚类算法。算法采用变异系数加权的欧式距离,引入了基于最大距离选取质心的方法初始化质一Ii,,使用KNN距离之和的倒数作为对象的密度并过滤掉离群点和噪声点,在高密度对象中选取最大距离的对象作为质心,使用加权的欧式距离计算隶属度矩阵并根据隶属度更新质,Ii,的位置。实验结果表明该聚类方法比一般的模糊C均值方法聚类结果更好,实际效果优于一般模糊C均值方法。为了提高混合属性数据集上的聚类精度问题,提出了一种基于加权模糊C均值的聚类算法。权值由数值属性和分类属性的距离之和计算,算法在数值属性上随机选取

5、质心,使用加权的距离计算隶属度并根据隶属度更新数值质心的位置;在分类属性上,依据初始数值质心划分的簇确定初始分类质心,将每个对象的分类属性划分到其隶属度最大的分类质心,并以所属簇内对象每个属性上出现的次数的集合作为质心。实验结果表明该算法可以发现数值属性和分类属性的混合数据集中的簇,与现有的同类算法相比,准确度有一定提高。关键词:数据挖掘聚类分析模糊C均值质心选取变异系数混合数据AbstractClusteringanalysisisoneofmostUnportaratechnologyandresearchhotspotinthedomainof

6、datamining,whichhasachieved丘uitfulresultsintheoryandmethodandplaysakeyroleindataanalysisinvariousfields.Thek-mgansalgorithmbasedonpartitionisthemostchssicalo鹏andhasbeenappliedtonuImrousdomain.FuzzyC-l/lgansalgorithmisavariantofthek-11tallsalgorithm,whichnmintainsitssimpleandeas

7、ycharacteristic.FuzzyC-meanshasnearlylineartimecomplexity,anditiseffectiveandseahbletolarge—scaledatamining.Inordertosolyethedifferenceofthesimilaritymeasl,llebasedonEuclideandistanceisnotveryobviousamongobjectsinmulti-dimemiomldataset,andweproposedafuzzyC-meailsclusteringalgor

8、ithmbasedonthecoefficientofvariation.ThealgorithmUSeSE

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。