中文题目-计算机应用研究

中文题目-计算机应用研究

ID:31820562

大小:213.00 KB

页数:5页

时间:2019-01-18

中文题目-计算机应用研究_第1页
中文题目-计算机应用研究_第2页
中文题目-计算机应用研究_第3页
中文题目-计算机应用研究_第4页
中文题目-计算机应用研究_第5页
资源描述:

《中文题目-计算机应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、页码计算机应用研究第28卷一种改进NeuralGas算法的聚类新算法CARD*朱烨行1,李艳玲2,杨献文3(1.西安邮电大学经济与管理学院,西安710061;2.第二炮兵工程大学,电子工程系,西安710025;3.西安财经学院信息与教育技术中心,西安710061)摘要:为了发现网上热点话题,可采用文档聚类方法。针对现有的NeuralGas算法进行改进,提出了一种新的聚类算法。改进之处在于:一个点对一个簇的质心的影响程度取决于该点到其它更近的簇的质心的距离值,而不仅仅是点与簇质心间距离值按大小排列次序的序号。在几个数据集上的实验结果表明,该算法在熵,纯度,F1值,Ra

2、ndIndex,规范化互信息NMI等五个指标上优于K-means算法、NeuralGas算法等其它几个聚类算法。结论是该算法是一种较好较快的算法。关键词:NeuralGas算法;聚类算法;距离值;排序;中图分类号:TP391   文献标志码:A文章编号:(作者可不填)doi:(作者可不填)ImprovedclusteringalgorithmCARDBasedonNeuralGasalgorithmZHUYe-Hang1+,LIYan-Ling2,YANGXian-Wen3(1.SchoolofEconomicsandManagement,Xi’anUniversi

3、tyofPostsandTelecommunications,Xi’an710061,China;2.DepartmentofElectronicEngineering,TheSecondArtilleryEngineeringUniversity,Xi’an710025,China;3.InformationandEducationalTechnologyCenter,Xi’anUniversityofFinanceandEconomics,Xi’an710061,China)Abstract:Documentclusteringmethodscanbeusedt

4、ofindhottopicsonInternet.AnewclusteringalgorithmisproposedwiththeexistingalgorithmNeuralGasimproved.Theimprovementisthatthedegreeofinfluenceofapointonaclustercentroiddependsonthedistancevaluesbetweenthispointandothermorenearclustercentroids,butnotjustthesequencenumberarrangedintheorder

5、ofthedistancevaluebetweenthispointandclustercentroids.Experimentalresultsonseveraldatasetsshowthattheimprovedalgorithmonfiveindicatorssuchasentropy,purity,F1value,RandIndexandnormalizedmutualinformationsurpassesthoseofK-means,NeuralGasandseveralotheralgorithms.Theconclusionisthatthisim

6、provedalgorithmisabetterandfasterone.Keywords:NeuralGasalgorithm,clusteringalgorithm;distancevalue;order;页码计算机应用研究第28卷0引言随着Internet的飞速发展和企业信息化程度的提高,网上文本数据量呈指数迅猛地增长。如何浏览海量文本数据和从中查阅相关信息的问题,越来越显得迫切和必要。文本聚类技术可将大量文本信息组织成少数有意义的簇,提供导航和浏览机制,对文本进行有效管理,使用户能快速高效地获得所需要的信息。从谷歌(Google)和百度等搜索引擎所返回的搜索

7、结果,有必要进行合理的组织,按主题组织成一个合理的层次结构,以方便用户快速查找到所需要的信息。对文本进行聚类正是解决这些难题的有效方法[1]。“NeuralGas”算法是一个通过多次迭代来确定簇的质心的算法。在每次迭代时,计算一个点和所有簇的质心的距离,把这些距离按大小排序,给每个簇一个相应的排序序号,离该点近的簇的序号小,其质心得到较大的改变,离该点较远的簇的序号大,其质心改动较小[2]。在图1(a)中,点X1与质心C1和C2的距离值排序与图1(b)中点X2与质心C1和C2的距离值排列顺序相同,而且点X1与质心C2距离与点X2与质心C2距离相同,都为d,但点X

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。