一种改进的K均值文本聚类算法.pdf

一种改进的K均值文本聚类算法.pdf

ID:52399788

大小:303.72 KB

页数:4页

时间:2020-03-27

一种改进的K均值文本聚类算法.pdf_第1页
一种改进的K均值文本聚类算法.pdf_第2页
一种改进的K均值文本聚类算法.pdf_第3页
一种改进的K均值文本聚类算法.pdf_第4页
资源描述:

《一种改进的K均值文本聚类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、130传感器与微系统(TransducerandMicrosystemTechnologies)2015年第34卷第5期DOI:10.13873/J.1000-9782o邸)05-0130-04碡一种改进的K均值文本聚类算法安计勇,高贵阁,史志强。,孙磊。(1.中国矿业大学计算机科学与技术学院。江苏徐州221116;2.73682部队,江苏徐州221116;3.中国矿业大学图文信息中心,江苏徐州221116)摘要:提出了一种改进的K均值文本聚类算法。该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最

2、远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量。实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量。关键词:簇密度;K均值;置信半径;海明距离;轮廓系数中图分类号:TP311文献标识码:A文章编号:1000-9787(2o15)05-0130-04AnimprovedK-meanstextclusteringalgorithmANJi.yong,GAOGuige,SHIZhi—qiang,SUNLei(1.SchoolofComputerScience&T

3、echnology,ChinaUniversityofMining&Technology,Xuzhou221116,China;2.The73682Army,Xuzhou221116,China;3.InformationCenterofLibrary,ChinaUniversityofMining&Technology,Xuzhou221116,China)Abstract:AnimprovedK—meanstextclusteringalgorithmisproposed.Theimprovementofthealgorithmisbasedonfo

4、llowingtwopoints:1)selectionofinitialclustercentersbasedondistancebetweentextandclusterdensity,confidenceradiusisintroducedtogetclusterdensity,orthepointsareselectedasinitialclustercentersbasedonthelongestdistancebetweentextandthemaximumofclusterdensity;2)textsimilarityiscalculat

5、edbyHammingdistancebasedonweight,clusteringqualityofdifferentalgorithmaremeasuredbasedonsilhouettetecoefficient.Experimentalresultsshowthat,comparedwiththeoriginalK—meanstextclusteringalgorithmandthealgorithminreference[1],theproposedalgorithmcanimproveclusteringquality.Keywords:

6、clusterdensity;K—means;confidenceradius;Hammingdistance;silhouetteteCoeficient0引言用轮廓系数来衡量不同聚类算法的聚类质量。实验结果表文本聚类是数据挖掘领域中的一个热点。传统聚类算明:该算法相比原始的K均值文本聚类算法和文献[1]中法分为基于划分的、密度的、分层的、网格的、模型的等几算法具有更好的聚类质量。种J。K均值聚类算法是基于划分的聚类算法,它具有算1K均值聚类算法与文本聚类法简单、收敛速度快、能有效处理大数据集等多方面的优1.1K均值聚类算法点。但是K均值聚类算法随机选

7、择初始簇中心会导致得K均值聚类算法的核心思想在于中心探索法。该算到的聚类结果中容易出现局部最优,而不是全局最优、聚类法是一个迭代算法,主要思想是从属于该簇的每个点的位结果具有不稳定性、聚类质量较差等缺点。置计算每个簇的中心位置,然后将这些点划分到距离它们针对K均值算法存在的不足,本文提出了一种改进的最近的中心,这个过程一直重复直到足够的收敛。该算法K均值文本聚类算法。该算法的改进基于以下两点:1)基相关计算公式如下:于簇密度与文本间距离选取初始簇中心,引入置信半径来聚类中心计算公式得到簇密度,即选取距离最远且簇密度最大的点为初始簇cJ.:X中心;2)基于

8、权重的海明距离来计算文本相似度,同时采i=1收稿日期:2014-09-09基金项

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。