优化初始聚类中心的k_means算法new

优化初始聚类中心的k_means算法new

ID:34520808

大小:186.29 KB

页数:4页

时间:2019-03-07

优化初始聚类中心的k_means算法new_第1页
优化初始聚类中心的k_means算法new_第2页
优化初始聚类中心的k_means算法new_第3页
优化初始聚类中心的k_means算法new_第4页
资源描述:

《优化初始聚类中心的k_means算法new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中图分类号:TP391文献标识码:A文章编号:1009-2552(2009)02-0071-03优化初始聚类中心的Kmeans算法刘强,吴京慧(江西财经大学信息管理学院,南昌330013)摘要:从传统Kmeans算法对初始中心的敏感性分析出发,提出了一种优化初始聚类中心的算法。该算法结合一种改进的遗传算法和网络中心数学模型对初始中心进行优化,有效地解决了算法对初始聚类中心的敏感性问题,取得了较好的实验结果。关键词:K平均算法;聚类中心;遗传算法;网络中心OptimizinginitialclustercenterofKmeansalgorithmLI

2、UQiang,WUJinghui(SchoolofInformationManagement,JiangxiUniversityofFinanceandEconomics,Nanchang330013,China)Abstract:ThisarticleembarksfromthetraditionalKmeansalgorithmtotheinitialcenterssensitiveanalysis,proposesonekindofoptimizedinitialclustercenteralgorithm.Thisalgorithmunifiesonekind

3、oftheimprovedgeneticalgorithmandthehubmathematicalmodelcarriesontheoptimizationtotheinitialcenter,theeffectivesolutionalgorithmtotheinitialclustercenterssensitivityandobtainsthegoodexperimentalresult.Keywords:Kmeans;clustercenter;geneticalgorithm;hub0引言基于层次的方法可以分为凝聚算法(AgglomerativeAlgor

4、ithms)和分裂(DivisiveAlgorithms)算法两种。按聚类分析是多元统计分析中的一种,也是非监[1]督模式识别的一个重要分支。它把一个没有类别照度量两簇临近度的不同方式,基于层次的凝聚聚[2]标记的样本集按某种准则划分成若干个子集(类),类算法分为单链接、全链接和平均链接三种。使相似的样本尽可能归为一类,而不相似的样本尽基于划分的聚类主要是K-平均及其变种。它量划分到不同的类中。聚类通过比较数据的相似性们聚类速度快、易于实现,而且还适合于文本、图像和差异性,能发现数据的内在特征及分布规律,从而特征等多种数据的聚类分析。然而,K-平均算法获得对数据更深刻的理解

5、与认识。聚类分析也是知目的是通过在完备数据空间的不完全搜索,使得目识发现的重要工具,其中的文本聚类是模式识别、机标函数取得最大值。由于局部极值点的存在以及启器学习、统计学和信息检索技术相互结合发展的结发算法的贪心性,传统的K-平均算法对初始聚类果。文本聚类在信息检索,邮件过滤和网页分类等中心敏感,从不同的初始聚类中心出发,得到的聚类领域有广泛的应用。结果也不一样,并且一般不会得到全局最优解。在1问题的提出实际应用中,由于初始输入不同而造成结果的波动聚类算法多种多样,大致可以将它们分为基于是不能接受的。因此,怎样找到一组较优的初始中划分、基于层次以及基于网格的方法。其它的聚

6、类心点,从而获得一个较好的聚类效果并消除聚类结算法还有MethodsBasedonCoOccurranceofCategorical果的波动性对K-平均算法具有重要意义。本文以Data、ConstraintBasedClustering、ClusteringAlgorithms收稿日期:2008-06-16UsedinMachineLearning、ScalableClusteringAlgorithms作者简介:刘强(1984-),男,毕业于江西财经大学软件学院软件工和AlgorithmsForHighDimensionalData等方法。其中程专业,硕士研究生,研究

7、方向为Web信息检索。71该问题为出发点,先采用文献[3]中提出的一种改进这种生物模拟技术的启发,创造出了一种基于生物的遗传算法来获取近似最优聚簇数K,然后采用一遗传和进化机制的适合子复杂系统优化计算的自适[8]种数学模型来获得一组优化初始聚点。应概率优化技术遗传算法。2优化初始点的K-平均本文采用的遗传算法基于CalinskiandHarabasz如上所述,K-平均算法聚类结果有波动性,造StoppingRule。使用一个n-1维向量来存储两个信成这一结果的原因是由于局部极值点的存在以及启息,该向量的n-1个元

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。