欢迎来到天天文库
浏览记录
ID:76080181
大小:3.48 MB
页数:59页
时间:2022-01-13
《基于电阻距离的中文文本谱聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着计算机技术的迅速发展和普及,电子信息日益增多,人们已经从信息资源匾乏的时代迅速过渡到信息极为丰富的数字化时代。面对海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理有效的组织和管理文本信息己经成为信息处理领域一个十分重要的研究课题。近年来,作为保证文本挖掘质量前提的文本聚类方法的研究受到越来越多的学者重视。聚类是将对象集合中的所有元素依据其特征相似性聚合为不同类的过程,被广泛应用于各种实际应用中。现有的许多聚类算法,如k均值、谱聚类,是一种单维度的聚类,主要依据数据集中的某一维所表现出的相似性进行聚类。协同聚类是利用
2、多维数据之间明确的对应关系进行高维同时聚类。Dhillon针对文本和单词两种异构数据提出了一种基于图分割的协同聚类算法。这种方法是把文本和单词表示成二分图形式,然后进行使用谱聚类算法进行聚类。本文提出了一种基于电阻距离的中文文本谱聚类算法。本算法先将文本表示成二分图模型,然后将这个二分图看作是电网路图,节点之间的权值为电阻,则可计算出任意节点间的有效电阻距离,最后使用谱聚类算法对这个基于电阻距离的二分图进行聚类。实验结果证明,该方法是一种切实可行且效果优异的数据聚类算法。关键词:中文文本聚类;电阻距离;谱聚类;二分图;协同聚类;IAbstra
3、ctWiththerapiddevelopmentandpopularityofinformationtechnology,anincreasingnumberofelectronictextscomeforth,peoplehaveexperiencedfromaninformationresourcelacktimetoaninformationabundanceone.Facingtomassiveinformationresource,peoplecanhardlyfindquicklyandeffectivelytheinforma
4、tionneeded.Therefore,howtoorganizeandmanagedocumentinformationrationallyandeffectivelyhasbecomeaveryimportresearchtaskininformationprocessingfield.Inrecentyears,astheprerequisitetoensurethequalityoftextminingmethods,thedocumentclusteringmethodresearchhasattractedmoreandmore
5、scholars.Clusteringorganizesalloftheelementsofacollectionintogroupsbasedonitscharacteristicsimilarity,arewidelyusedinavarietyofpracticalapplications.Manyoftheexistingclusteringalgorithm,suchask-means,spectralclustering,isasingle-dimensionalclustering,adimensionalbasedprimar
6、ilyonthedatasetshownbythesimilarityofclustering.TheCo-clusteringalgorithmusestheclearlycorrespondencebetweenmultidimensionaldatatoclusteringthemultidimensionaldataatthesametime.Dhillonpresentthenovelideaofmodelingthedocumentcollectionasabipartitegraphbetweendocumentsandword
7、s,usingwhichthesimultaneousclusteringproblemcanbeposedasabipartitegraphpartitioningproblem.ThispaperpresentsaspectralclusteringforChinesedocumentBaseonResistanceDistance.Thedocumentisfirstlyrepresentedasabipartitegraphmodel,andthenthebipartitegraphisseenasacircuit,andweight
8、betweentheedgesareseenasresistance,afterthatwecancalculatetheeffectiveresistanceof
此文档下载收益归作者所有